tutorialบทสอนและคู่มืออ่าน 5 นาที

คู่มือ Eleven v3 Audio Tags: ควบคุมการแสดงเสียง AI อย่างมืออาชีพ

เรียนรู้วิธีใช้ audio tags ของ ElevenLabs v3 บน OmniArt ตั้งแต่แท็กอารมณ์ การพูด สำเนียง และตัวละคร เพื่อสร้างเสียงพากย์ AI ที่มีความหมายและสีสันในทุกบรรทัด

ทีม OmniArt13 มิ.ย. 2569

เครื่องมือแปลงข้อความเป็นเสียงส่วนใหญ่จะอ่านสคริปต์แบบเดิมซ้ำไปซ้ำมา ทั้งเรียบและสม่ำเสมอ ฟังดูเป็นเครื่องจักร Eleven v3 แตกต่างออกไป โมเดลนี้เข้าใจเนื้อสัมผัสทางอารมณ์ของสคริปต์ และเมื่อใช้ audio tags คุณสามารถให้คำสั่งที่ชัดเจนกับมันได้ ราวกับว่าผู้กำกับเสียงกำลังสั่งนักแสดงก่อนเริ่มอัด

Audio tags คือคำหรือวลีสั้นๆ ในวงเล็บเหลี่ยมที่ฝังอยู่ในสคริปต์โดยตรง แท็กเหล่านี้บอกโมเดลว่าจะต้องส่งมอบบรรทัดถัดไปอย่างไร ไม่ว่าจะเป็นการกระซิบ ตะโกน ใส่สำเนียงอังกฤษ หรือแทรกเสียงため息กลางประโยค คู่มือนี้ครอบคลุมคำศัพท์แท็กทั้งหมดที่มีบน OmniArt วิธีเขียนสคริปต์หลายตัวละคร และวิธีตัดสินใจว่าเมื่อใดควรใช้ Eleven v3

Audio tags คืออะไร

Audio tags คือคำสั่งกำกับการแสดงแบบอินไลน์ที่อยู่ในวงเล็บเหลี่ยม เช่น [whispers] (กระซิบ) [excited] (ตื่นเต้น) [British accent] (สำเนียงอังกฤษ) วางไว้ในสคริปต์ตรงจุดที่ต้องการให้การส่งมอบเสียงเปลี่ยน Eleven v3 จะตีความเป็นคำสั่ง ไม่ใช่คำที่ต้องพูด แล้วปรับโทนเสียง จังหวะ และอารมณ์ให้เหมาะสม

ความแตกต่างสำคัญจาก TTS รุ่นเก่าคือ v3 ตีความบริบท โมเดลไม่ได้แค่ใช้ฟิลเตอร์ครอบทั้งหมด แต่ชั่งน้ำหนักแท็กกับประโยครอบข้าง ดังนั้น [sighs] ก่อน "คิดว่าคุณพูดถูก" จะให้ผลต่างจาก [sighs] ก่อน "ได้เลย ไปกัน" ความไวต่อบริบทนี้เองที่ทำให้สคริปต์ที่มีแท็กฟังดูได้รับการกำกับ ไม่ใช่แค่ผ่านการประมวลผล

เคล็ดลับ

วางแท็กไว้ก่อนหน้าวลีที่ต้องการโดยตรง แท็กที่อยู่ต้นย่อหน้าจะควบคุมการส่งมอบจนกว่าจะพบแท็กถัดไปหรือมีการรีเซ็ตโทนตามธรรมชาติ

คำศัพท์ audio tags ทั้งหมด

ตารางด้านล่างจัดกลุ่มแท็กหลักทุกหมวดพร้อมตัวอย่าง เหล่านี้คือสัญญาณที่ Eleven v3 ตอบสนองได้อย่างน่าเชื่อถือบน OmniArt

แท็กอารมณ์

แท็ก	ผล
`[excited]`	พลังงานสูงขึ้น จังหวะเร็วขึ้น โทนสดใสขึ้น
`[sad]`	ช้าลง ต่ำลง ส่งมอบเสียงนิ่งและเบาลง
`[angry]`	สั้นกระชับ มีพลัง เสียงดังขึ้น
`[nervous]`	จังหวะไม่สม่ำเสมอเล็กน้อย เสียงเบาโดยรวม
`[happy]`	อบอุ่น มีชีวิตชีวา มีความกังวาน
`[tired]`	ช้าลง แบนราบ พลังงานต่ำ
`[afraid]`	ตึงเครียด ระมัดระวัง ลมหายใจน้อยลง
`[disgusted]`	อารมณ์แบน มีความดูถูกเล็กน้อย
`[surprised]`	เสียงสูงขึ้นช่วงต้น วลีสั้นลง

แท็กลักษณะการพูด

แท็ก	ผล
`[whispers]`	เสียงลมหายใจ ระดับเสียงต่ำ สนิทสนม
`[shouting]`	ระดับเสียงสูง ส่งพลัง กังวานกว้าง
`[pause]`	แทรกจังหวะหรือการหยุดธรรมชาติตรงนี้
`[slowly]`	ยืดเทมโปโดยไม่เปลี่ยนระดับเสียง
`[fast]`	บีบอัดเทมโป พลังงานสูงขึ้น
`[sighs]`	สอดแทรกเสียงถอนหายใจที่ได้ยินได้ที่ต้นวลี
`[laughs]`	เพิ่มเสียงหัวเราะสั้นธรรมชาติก่อนหรือระหว่างบรรทัด
`[crying]`	เสียงสะอื้น มีความชื้นในการส่งมอบ

แท็กตัวละครและบุคลิก

แท็ก	ผล
`[pirate voice]`	ละครเวที เสียงต่ำครวญ จังหวะเกินจริง
`[robot voice]`	สั้นกระชับ โมโนโทน มีคุณภาพสังเคราะห์
`[narrator]`	มีอำนาจ มีระดับ สไตล์สารคดี
`[announcer]`	ส่งพลัง เป็นทางการ คุณภาพการออกอากาศ
`[childlike]`	ระดับเสียงสูงกว่า วลีสั้น เล่นสนุก

แท็กสำเนียง

แท็ก	ผล
`[British accent]`	สไตล์การออกเสียงมาตรฐานอังกฤษ (Received Pronunciation)
`[Southern US accent]`	อบอุ่น สระยาวออก
`[Australian accent]`	เสียงขึ้นท้ายประโยค
`[Irish accent]`	มีเสียงเพลง สระกลม โดดเด่น
`[New York accent]`	พยัญชนะสั้น ช่วงกลางเสียงในโพรงจมูก

หมายเหตุ

แท็กสำเนียงจะซ้อนทับบน voice preset พื้นฐาน ผลลัพธ์แตกต่างกันตาม preset บางเสียงตอบสนองต่อแท็กสำเนียงได้แรงกว่าเสียงอื่น ลองสร้างบรรทัดทดสอบสั้นๆ ก่อนนำไปใช้กับสคริปต์จริง

ตารางอ้างอิงแท็กด่วน

วัตถุประสงค์	แท็กตัวอย่าง
อารมณ์ — เชิงบวก	`[excited]`, `[happy]`, `[surprised]`
อารมณ์ — เชิงลบ	`[sad]`, `[angry]`, `[tired]`, `[afraid]`, `[nervous]`
ระดับเสียง / การส่งพลัง	`[whispers]`, `[shouting]`
จังหวะ	`[slowly]`, `[fast]`
เสียงธรรมชาติ	`[sighs]`, `[laughs]`, `[crying]`, `[pause]`
สไตล์ตัวละคร	`[pirate voice]`, `[robot voice]`, `[narrator]`, `[announcer]`, `[childlike]`
สำเนียง	`[British accent]`, `[Southern US accent]`, `[Australian accent]`, `[Irish accent]`, `[New York accent]`

การเขียนสคริปต์ที่มีแท็ก: สองตัวอย่าง

ตัวอย่าง 1 — การบรรยายเชิงอารมณ์

นี่คือตอนเปิดของบทหนึ่งในหนังสือเสียง แท็กเปลี่ยนอารมณ์ตามการเปลี่ยนแปลงของฉาก

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

แท็ก [narrator] กำหนดโทนที่มั่นคงและมีระดับตั้งแต่ต้น [slowly] ร่วมกับ [pause] สร้างพื้นที่ดราม่า [tired] ทำให้การส่งมอบหนักลง ก่อนที่ [whispers] จะดึงเสียงลงต่ำและสนิทสนม [sighs] เพิ่มเสียงหายใจจริงที่ทำให้บรรทัดสุดท้ายรู้สึกมีน้ำหนัก

ตัวอย่าง 2 — บทสนทนาสองตัวละคร

Eleven v3 รองรับการอ่านหลายผู้พูดจากพร็อมต์เดียว ใช้ป้ายชื่อตัวละครและแท็กการส่งมอบเพื่อแยกเสียงแต่ละตัว

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

เคล็ดลับ

สำหรับสคริปต์หลายตัวละคร ให้เลือก voice preset สองตัวที่มีระดับเสียงพื้นฐานต่างกันชัดเจน ตัวหนึ่งต่ำ อีกตัวสว่างกว่า เพื่อให้ความแตกต่างของตัวละครชัดเจนแม้ไม่มีป้ายผู้พูดในไฟล์เสียง

วิธีใช้ audio tags บน OmniArt

ไปที่ โหมดเสียง แล้วเลือกแท็บ Speech
เลือก Eleven v3 จากเมนูโมเดล ใช้งานได้ตั้งแต่แพ็กเกจ STARTER ขึ้นไป
เลือก voice preset OmniArt มีเสียงที่คัดสรรมาแล้ว 353 เสียงจากโมเดลเสียงต่างๆ เรียกดูตามเพศและสไตล์ เสียงที่ต่ำและมีอำนาจเหมาะกับการบรรยาย เสียงช่วงกลางที่สว่างตอบสนองต่อแท็กอารมณ์แรงได้ดี
วางสคริปต์ที่มีแท็กลงในช่องพร็อมต์ Eleven v3 รับได้สูงสุด 5,000 ตัวอักษรต่อการสร้าง
ตั้งค่าภาษา ให้ตรงกับสคริปต์
สร้างและฟังทดสอบ หากแท็กออกมามากหรือน้อยเกินไป ปรับตำแหน่งแท็ก เพิ่มแท็กรีเซ็ต หรือลอง preset เสียงอื่น

การเรียกเก็บเงิน: 1 เครดิตต่อบล็อก 50 ตัวอักษรที่เริ่มต้น สคริปต์ 500 ตัวอักษรใช้ 10 เครดิต สคริปต์ 5,000 ตัวอักษรใช้ 100 เครดิต บล็อกที่ไม่ครบ 50 ตัวอักษรจะปัดขึ้น

คำเตือน

OmniArt ไม่มีฟีเจอร์โคลนเสียง ตัวเลื่อนความเร็ว หรือการควบคุมระดับเสียงสำหรับ Eleven v3 การเปลี่ยนแปลงการส่งมอบทั้งหมดมาจากข้อความสคริปต์และ audio tags

เมื่อไหร่ควรใช้ Eleven v3 เทียบกับโมเดลเสียงอื่น

OmniArt มีโมเดล ElevenLabs ให้เลือกสามตัว นี่คือสถานการณ์ที่เหมาะสมสำหรับแต่ละตัว

สถานการณ์	โมเดลที่ดีที่สุด	เหตุผล
การแสดงที่มีอารมณ์หลากหลาย ตัวละครที่หัวเราะ ร้องไห้ ตะโกน	Eleven v3	Audio tags และการรับรู้บริบทให้ช่วงการแสดงออกที่กว้างที่สุด
การบรรยายหลายภาษาที่มั่นคง (50+ ภาษา)	Eleven Multilingual v2	การส่งมอบสม่ำเสมอทุกภาษา สูงสุด 10,000 ตัวอักษรต่อการสร้าง
สคริปต์ยาวที่ต้องการผลลัพธ์เร็ว	Eleven Turbo v2.5	Latency ต่ำ สูงสุด 40,000 ตัวอักษรต่อการสร้าง 1 เครดิตต่อ 100 ตัวอักษร
งบจำกัดหรือการสร้างระดับ FREE	MiniMax Speech 2.8 HD / Turbo	ใช้งานได้ในระดับ FREE HD สำหรับงานสุดท้าย Turbo สำหรับร่าง

แนวคิดที่เป็นประโยชน์: ใช้ v3 เมื่อสคริปต์ต้องการ การแสดง และการส่งมอบเองมีความหมาย ใช้ Multilingual v2 เมื่อเป้าหมายคือการบรรยายที่ชัดเจนและตามได้ง่ายในหลายภาษา ใช้ Turbo v2.5 เมื่อมีสคริปต์ยาวที่ค่อนข้างเป็นกลางและต้องการผลลัพธ์เร็ว

ดูข้อมูลจำเพาะเต็มในหน้าโมเดลเฉพาะ: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5

ข้อผิดพลาดในการใช้แท็กที่ควรหลีกเลี่ยง

ใช้แท็กมากเกินไป: การเพิ่มแท็กทุกประโยคจะทำให้ความหลากหลายแบนราบลง แท็กอารมณ์จะทรงพลังยิ่งขึ้นเมื่อปรากฏหลังจากช่วงที่ไม่มีแท็กและการส่งมอบเป็นธรรมชาติ ใช้สำหรับจุดสูงสุดและการเปลี่ยนผ่าน ไม่ใช่เป็นชั้นต่อเนื่อง

แท็กที่ขัดแย้งกัน: [shouting] ตามทันทีด้วย [whispers] โดยไม่มีประโยคคั่นอาจทำให้โมเดลสับสน เว้นประโยคการส่งมอบที่เป็นกลางไว้ระหว่างการตัดกันแบบรุนแรง

แท็กสำเนียงโดยไม่ทดสอบ: การแสดงสำเนียงขึ้นอยู่กับ voice preset พื้นฐาน ลองบรรทัดทดสอบ 50 ตัวอักษรก่อนนำแท็กสำเนียงไปใช้กับสคริปต์ยาว

แท็กกลางคำ: แท็กต้องอยู่ระหว่างคำสมบูรณ์หรือเครื่องหมายวรรคตอน ไม่ใช่ภายในคำ Incre[excited]dible จะไม่ parse ถูกต้อง ให้เขียนว่า [excited] Incredible แทน

กรณีการใช้งานที่ได้ประโยชน์สูงสุด

หนังสือเสียงหลายตัวละคร: การผสมผสาน voice preset และแท็กการส่งมอบทำให้แยกแยะผู้บรรยายจากตัวละครได้ และให้แต่ละตัวละครมีลักษณะเฉพาะทางอารมณ์ที่สม่ำเสมอ ดูวิธีสร้างงานผลิตเสียงสมบูรณ์แบบได้ที่ คู่มือ MiniMax Speech voiceover

บทสนทนาเกมและนิยายอินเตอร์แอ็กทีฟ: บรรทัดสั้นที่มีพลังพร้อมแท็กแรง เช่น [afraid] Stay back! (อย่าเข้ามา!) [laughs] You call that a plan? (แกเรียกนั่นว่าแผนเหรอ?) สร้าง NPC ที่น่าเชื่อถือได้โดยไม่ต้องใช้นักพากย์จริง

การบรรยาย YouTube ที่มีช่วงอารมณ์: สารคดีหรือวิดีโออธิบายที่เคลื่อนระหว่างการเปิดเผยที่น่าตื่นเต้น มุขตลกแทรก และการสะท้อนคิดที่เงียบสงบ ได้ประโยชน์จากการเปลี่ยนการส่งมอบ ใส่แท็กตรงจุดเปลี่ยนผ่านแล้วจังหวะจะเขียนตัวเอง

สื่อที่ขับเคลื่อนด้วยบทสนทนาและตัวอย่าง: การอ่านตัวละครสองหรือสามตัวจากการสร้างเดียว แต่ละตัวแยกด้วย voice preset และแท็ก บีบฉากบทสนทนาให้เหลือขั้นตอนเดียวในเวิร์กโฟลว์

เริ่มต้นใช้งานบน OmniArt

วิธีที่เร็วที่สุดในการพัฒนาความรู้สึกต่อสิ่งที่ v3 ทำได้คือ นำสคริปต์ที่คุณรู้จักดี เช่น บทพูดคนเดียว ตอนเปิดเรื่องสั้น บทสนทนาเกมสักสองสามบรรทัด แล้วใส่แท็กสองรอบ รอบแรกใส่แท็กเบาๆ รอบสองปรับการส่งมอบแบบเต็มที่ สร้างทั้งสองแล้วเปรียบเทียบ ความต่างระหว่างสคริปต์ที่กำกับน้อยกับที่กำกับเต็มที่มักชัดเจนตั้งแต่ประโยคแรก

เปิด Eleven v3 บน OmniArt แล้ววางสคริปต์แท็กแรกของคุณ เริ่มจากตัวอย่างการบรรยายเชิงอารมณ์ข้างต้น เปลี่ยน voice preset แล้วดูว่าอะไรเปลี่ยนแปลง เมื่อคุ้นเคยกับคำศัพท์แท็กแล้ว โมเดลนี้จะตอบสนองได้ไวพอๆ กับเซสชันการอัดจริง โดยไม่ต้องใช้สตูดิโอ

สำหรับภาพรวมของโมเดลเสียงทุกตัวบน OmniArt รวมถึงดนตรีและเอฟเฟกต์เสียง ดูที่ คู่มือพื้นที่ทำงานเสียงฉบับสมบูรณ์

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI

เริ่มฟรี