คู่มือ Eleven v3 Audio Tags: ควบคุมการแสดงเสียง AI อย่างมืออาชีพ
เรียนรู้วิธีใช้ audio tags ของ ElevenLabs v3 บน OmniArt ตั้งแต่แท็กอารมณ์ การพูด สำเนียง และตัวละคร เพื่อสร้างเสียงพากย์ AI ที่มีความหมายและสีสันในทุกบรรทัด

เครื่องมือแปลงข้อความเป็นเสียงส่วนใหญ่จะอ่านสคริปต์แบบเดิมซ้ำไปซ้ำมา ทั้งเรียบและสม่ำเสมอ ฟังดูเป็นเครื่องจักร Eleven v3 แตกต่างออกไป โมเดลนี้เข้าใจเนื้อสัมผัสทางอารมณ์ของสคริปต์ และเมื่อใช้ audio tags คุณสามารถให้คำสั่งที่ชัดเจนกับมันได้ ราวกับว่าผู้กำกับเสียงกำลังสั่งนักแสดงก่อนเริ่มอัด
Audio tags คือคำหรือวลีสั้นๆ ในวงเล็บเหลี่ยมที่ฝังอยู่ในสคริปต์โดยตรง แท็กเหล่านี้บอกโมเดลว่าจะต้องส่งมอบบรรทัดถัดไปอย่างไร ไม่ว่าจะเป็นการกระซิบ ตะโกน ใส่สำเนียงอังกฤษ หรือแทรกเสียงため息กลางประโยค คู่มือนี้ครอบคลุมคำศัพท์แท็กทั้งหมดที่มีบน OmniArt วิธีเขียนสคริปต์หลายตัวละคร และวิธีตัดสินใจว่าเมื่อใดควรใช้ Eleven v3
Audio tags คืออะไร
Audio tags คือคำสั่งกำกับการแสดงแบบอินไลน์ที่อยู่ในวงเล็บเหลี่ยม เช่น [whispers] (กระซิบ) [excited] (ตื่นเต้น) [British accent] (สำเนียงอังกฤษ) วางไว้ในสคริปต์ตรงจุดที่ต้องการให้การส่งมอบเสียงเปลี่ยน Eleven v3 จะตีความเป็นคำสั่ง ไม่ใช่คำที่ต้องพูด แล้วปรับโทนเสียง จังหวะ และอารมณ์ให้เหมาะสม
ความแตกต่างสำคัญจาก TTS รุ่นเก่าคือ v3 ตีความบริบท โมเดลไม่ได้แค่ใช้ฟิลเตอร์ครอบทั้งหมด แต่ชั่งน้ำหนักแท็กกับประโยครอบข้าง ดังนั้น [sighs] ก่อน "คิดว่าคุณพูดถูก" จะให้ผลต่างจาก [sighs] ก่อน "ได้เลย ไปกัน" ความไวต่อบริบทนี้เองที่ทำให้สคริปต์ที่มีแท็กฟังดูได้รับการกำกับ ไม่ใช่แค่ผ่านการประมวลผล
เคล็ดลับ
คำศัพท์ audio tags ทั้งหมด
ตารางด้านล่างจัดกลุ่มแท็กหลักทุกหมวดพร้อมตัวอย่าง เหล่านี้คือสัญญาณที่ Eleven v3 ตอบสนองได้อย่างน่าเชื่อถือบน OmniArt
แท็กอารมณ์
| แท็ก | ผล |
|---|---|
[excited] | พลังงานสูงขึ้น จังหวะเร็วขึ้น โทนสดใสขึ้น |
[sad] | ช้าลง ต่ำลง ส่งมอบเสียงนิ่งและเบาลง |
[angry] | สั้นกระชับ มีพลัง เสียงดังขึ้น |
[nervous] | จังหวะไม่สม่ำเสมอเล็กน้อย เสียงเบาโดยรวม |
[happy] | อบอุ่น มีชีวิตชีวา มีความกังวาน |
[tired] | ช้าลง แบนราบ พลังงานต่ำ |
[afraid] | ตึงเครียด ระมัดระวัง ลมหายใจน้อยลง |
[disgusted] | อารมณ์แบน มีความดูถูกเล็กน้อย |
[surprised] | เสียงสูงขึ้นช่วงต้น วลีสั้นลง |
แท็กลักษณะการพูด
| แท็ก | ผล |
|---|---|
[whispers] | เสียงลมหายใจ ระดับเสียงต่ำ สนิทสนม |
[shouting] | ระดับเสียงสูง ส่งพลัง กังวานกว้าง |
[pause] | แทรกจังหวะหรือการหยุดธรรมชาติตรงนี้ |
[slowly] | ยืดเทมโปโดยไม่เปลี่ยนระดับเสียง |
[fast] | บีบอัดเทมโป พลังงานสูงขึ้น |
[sighs] | สอดแทรกเสียงถอนหายใจที่ได้ยินได้ที่ต้นวลี |
[laughs] | เพิ่มเสียงหัวเราะสั้นธรรมชาติก่อนหรือระหว่างบรรทัด |
[crying] | เสียงสะอื้น มีความชื้นในการส่งมอบ |
แท็กตัวละครและบุคลิก
| แท็ก | ผล |
|---|---|
[pirate voice] | ละครเวที เสียงต่ำครวญ จังหวะเกินจริง |
[robot voice] | สั้นกระชับ โมโนโทน มีคุณภาพสังเคราะห์ |
[narrator] | มีอำนาจ มีระดับ สไตล์สารคดี |
[announcer] | ส่งพลัง เป็นทางการ คุณภาพการออกอากาศ |
[childlike] | ระดับเสียงสูงกว่า วลีสั้น เล่นสนุก |
แท็กสำเนียง
| แท็ก | ผล |
|---|---|
[British accent] | สไตล์การออกเสียงมาตรฐานอังกฤษ (Received Pronunciation) |
[Southern US accent] | อบอุ่น สระยาวออก |
[Australian accent] | เสียงขึ้นท้ายประโยค |
[Irish accent] | มีเสียงเพลง สระกลม โดดเด่น |
[New York accent] | พยัญชนะสั้น ช่วงกลางเสียงในโพรงจมูก |
หมายเหตุ
ตารางอ้างอิงแท็กด่วน
| วัตถุประสงค์ | แท็กตัวอย่าง |
|---|---|
| อารมณ์ — เชิงบวก | [excited], [happy], [surprised] |
| อารมณ์ — เชิงลบ | [sad], [angry], [tired], [afraid], [nervous] |
| ระดับเสียง / การส่งพลัง | [whispers], [shouting] |
| จังหวะ | [slowly], [fast] |
| เสียงธรรมชาติ | [sighs], [laughs], [crying], [pause] |
| สไตล์ตัวละคร | [pirate voice], [robot voice], [narrator], [announcer], [childlike] |
| สำเนียง | [British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent] |
การเขียนสคริปต์ที่มีแท็ก: สองตัวอย่าง
ตัวอย่าง 1 — การบรรยายเชิงอารมณ์
นี่คือตอนเปิดของบทหนึ่งในหนังสือเสียง แท็กเปลี่ยนอารมณ์ตามการเปลี่ยนแปลงของฉาก
[narrator] The city had been quiet for three days.
[slowly] Not the quiet of peace — [pause] the quiet of waiting.
[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.
[whispers] They had to be out there somewhere.
[sighs] She just needed one more lead.
แท็ก [narrator] กำหนดโทนที่มั่นคงและมีระดับตั้งแต่ต้น [slowly] ร่วมกับ [pause] สร้างพื้นที่ดราม่า [tired] ทำให้การส่งมอบหนักลง ก่อนที่ [whispers] จะดึงเสียงลงต่ำและสนิทสนม [sighs] เพิ่มเสียงหายใจจริงที่ทำให้บรรทัดสุดท้ายรู้สึกมีน้ำหนัก
ตัวอย่าง 2 — บทสนทนาสองตัวละคร
Eleven v3 รองรับการอ่านหลายผู้พูดจากพร็อมต์เดียว ใช้ป้ายชื่อตัวละครและแท็กการส่งมอบเพื่อแยกเสียงแต่ละตัว
CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.
FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.
CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.
FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.
เคล็ดลับ
วิธีใช้ audio tags บน OmniArt
- ไปที่ โหมดเสียง แล้วเลือกแท็บ Speech
- เลือก Eleven v3 จากเมนูโมเดล ใช้งานได้ตั้งแต่แพ็กเกจ STARTER ขึ้นไป
- เลือก voice preset OmniArt มีเสียงที่คัดสรรมาแล้ว 353 เสียงจากโมเดลเสียงต่างๆ เรียกดูตามเพศและสไตล์ เสียงที่ต่ำและมีอำนาจเหมาะกับการบรรยาย เสียงช่วงกลางที่สว่างตอบสนองต่อแท็กอารมณ์แรงได้ดี
- วางสคริปต์ที่มีแท็กลงในช่องพร็อมต์ Eleven v3 รับได้สูงสุด 5,000 ตัวอักษรต่อการสร้าง
- ตั้งค่าภาษา ให้ตรงกับสคริปต์
- สร้างและฟังทดสอบ หากแท็กออกมามากหรือน้อยเกินไป ปรับตำแหน่งแท็ก เพิ่มแท็กรีเซ็ต หรือลอง preset เสียงอื่น
การเรียกเก็บเงิน: 1 เครดิตต่อบล็อก 50 ตัวอักษรที่เริ่มต้น สคริปต์ 500 ตัวอักษรใช้ 10 เครดิต สคริปต์ 5,000 ตัวอักษรใช้ 100 เครดิต บล็อกที่ไม่ครบ 50 ตัวอักษรจะปัดขึ้น
คำเตือน
เมื่อไหร่ควรใช้ Eleven v3 เทียบกับโมเดลเสียงอื่น
OmniArt มีโมเดล ElevenLabs ให้เลือกสามตัว นี่คือสถานการณ์ที่เหมาะสมสำหรับแต่ละตัว
| สถานการณ์ | โมเดลที่ดีที่สุด | เหตุผล |
|---|---|---|
| การแสดงที่มีอารมณ์หลากหลาย ตัวละครที่หัวเราะ ร้องไห้ ตะโกน | Eleven v3 | Audio tags และการรับรู้บริบทให้ช่วงการแสดงออกที่กว้างที่สุด |
| การบรรยายหลายภาษาที่มั่นคง (50+ ภาษา) | Eleven Multilingual v2 | การส่งมอบสม่ำเสมอทุกภาษา สูงสุด 10,000 ตัวอักษรต่อการสร้าง |
| สคริปต์ยาวที่ต้องการผลลัพธ์เร็ว | Eleven Turbo v2.5 | Latency ต่ำ สูงสุด 40,000 ตัวอักษรต่อการสร้าง 1 เครดิตต่อ 100 ตัวอักษร |
| งบจำกัดหรือการสร้างระดับ FREE | MiniMax Speech 2.8 HD / Turbo | ใช้งานได้ในระดับ FREE HD สำหรับงานสุดท้าย Turbo สำหรับร่าง |
แนวคิดที่เป็นประโยชน์: ใช้ v3 เมื่อสคริปต์ต้องการ การแสดง และการส่งมอบเองมีความหมาย ใช้ Multilingual v2 เมื่อเป้าหมายคือการบรรยายที่ชัดเจนและตามได้ง่ายในหลายภาษา ใช้ Turbo v2.5 เมื่อมีสคริปต์ยาวที่ค่อนข้างเป็นกลางและต้องการผลลัพธ์เร็ว
ดูข้อมูลจำเพาะเต็มในหน้าโมเดลเฉพาะ: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5
ข้อผิดพลาดในการใช้แท็กที่ควรหลีกเลี่ยง
ใช้แท็กมากเกินไป: การเพิ่มแท็กทุกประโยคจะทำให้ความหลากหลายแบนราบลง แท็กอารมณ์จะทรงพลังยิ่งขึ้นเมื่อปรากฏหลังจากช่วงที่ไม่มีแท็กและการส่งมอบเป็นธรรมชาติ ใช้สำหรับจุดสูงสุดและการเปลี่ยนผ่าน ไม่ใช่เป็นชั้นต่อเนื่อง
แท็กที่ขัดแย้งกัน: [shouting] ตามทันทีด้วย [whispers] โดยไม่มีประโยคคั่นอาจทำให้โมเดลสับสน เว้นประโยคการส่งมอบที่เป็นกลางไว้ระหว่างการตัดกันแบบรุนแรง
แท็กสำเนียงโดยไม่ทดสอบ: การแสดงสำเนียงขึ้นอยู่กับ voice preset พื้นฐาน ลองบรรทัดทดสอบ 50 ตัวอักษรก่อนนำแท็กสำเนียงไปใช้กับสคริปต์ยาว
แท็กกลางคำ: แท็กต้องอยู่ระหว่างคำสมบูรณ์หรือเครื่องหมายวรรคตอน ไม่ใช่ภายในคำ Incre[excited]dible จะไม่ parse ถูกต้อง ให้เขียนว่า [excited] Incredible แทน
กรณีการใช้งานที่ได้ประโยชน์สูงสุด
หนังสือเสียงหลายตัวละคร: การผสมผสาน voice preset และแท็กการส่งมอบทำให้แยกแยะผู้บรรยายจากตัวละครได้ และให้แต่ละตัวละครมีลักษณะเฉพาะทางอารมณ์ที่สม่ำเสมอ ดูวิธีสร้างงานผลิตเสียงสมบูรณ์แบบได้ที่ คู่มือ MiniMax Speech voiceover
บทสนทนาเกมและนิยายอินเตอร์แอ็กทีฟ: บรรทัดสั้นที่มีพลังพร้อมแท็กแรง เช่น [afraid] Stay back! (อย่าเข้ามา!) [laughs] You call that a plan? (แกเรียกนั่นว่าแผนเหรอ?) สร้าง NPC ที่น่าเชื่อถือได้โดยไม่ต้องใช้นักพากย์จริง
การบรรยาย YouTube ที่มีช่วงอารมณ์: สารคดีหรือวิดีโออธิบายที่เคลื่อนระหว่างการเปิดเผยที่น่าตื่นเต้น มุขตลกแทรก และการสะท้อนคิดที่เงียบสงบ ได้ประโยชน์จากการเปลี่ยนการส่งมอบ ใส่แท็กตรงจุดเปลี่ยนผ่านแล้วจังหวะจะเขียนตัวเอง
สื่อที่ขับเคลื่อนด้วยบทสนทนาและตัวอย่าง: การอ่านตัวละครสองหรือสามตัวจากการสร้างเดียว แต่ละตัวแยกด้วย voice preset และแท็ก บีบฉากบทสนทนาให้เหลือขั้นตอนเดียวในเวิร์กโฟลว์
เริ่มต้นใช้งานบน OmniArt
วิธีที่เร็วที่สุดในการพัฒนาความรู้สึกต่อสิ่งที่ v3 ทำได้คือ นำสคริปต์ที่คุณรู้จักดี เช่น บทพูดคนเดียว ตอนเปิดเรื่องสั้น บทสนทนาเกมสักสองสามบรรทัด แล้วใส่แท็กสองรอบ รอบแรกใส่แท็กเบาๆ รอบสองปรับการส่งมอบแบบเต็มที่ สร้างทั้งสองแล้วเปรียบเทียบ ความต่างระหว่างสคริปต์ที่กำกับน้อยกับที่กำกับเต็มที่มักชัดเจนตั้งแต่ประโยคแรก
เปิด Eleven v3 บน OmniArt แล้ววางสคริปต์แท็กแรกของคุณ เริ่มจากตัวอย่างการบรรยายเชิงอารมณ์ข้างต้น เปลี่ยน voice preset แล้วดูว่าอะไรเปลี่ยนแปลง เมื่อคุ้นเคยกับคำศัพท์แท็กแล้ว โมเดลนี้จะตอบสนองได้ไวพอๆ กับเซสชันการอัดจริง โดยไม่ต้องใช้สตูดิโอ
สำหรับภาพรวมของโมเดลเสียงทุกตัวบน OmniArt รวมถึงดนตรีและเอฟเฟกต์เสียง ดูที่ คู่มือพื้นที่ทำงานเสียงฉบับสมบูรณ์
พร้อมสร้างหรือยัง?
เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI