tutorialบทสอนและคู่มืออ่าน 3 นาที

คู่มือสร้างเสียงบรรยาย AI สำหรับ YouTube: ตั้งแต่สคริปต์จนถึงวิดีโอสำเร็จ

ใช้โมเดลเสียง AI บน OmniArt แปลงสคริปต์เป็นเสียงบรรยาย YouTube คุณภาพสูง ครอบคลุมการเลือกโมเดล พากย์เสียงหลายภาษา เทคนิคจังหวะ และตัวอย่างการคำนวณเครดิต

ทีม OmniArt13 มิ.ย. 2569

การบันทึกเสียงบรรยายคุณภาพสูงเคยหมายความว่าต้องจองสตูดิโอ จ้างนักพากย์ หรือยอมรับเครื่องมือแปลงข้อความเป็นเสียงแบบหุ่นยนต์จากปี 2012 ไม่มีทางเลือกใดที่ขยายได้ในระดับใหญ่ โมเดลเสียง AI บน OmniArt ให้คุณได้เสียงบรรยายระดับสตูดิโอจากพรอมต์ข้อความ เพียงเลือกพรีเซ็ตเสียง วางสคริปต์ และได้ไฟล์เสียงสำเร็จภายในไม่กี่วินาที คู่มือนี้จะพาคุณผ่านกระบวนการทั้งหมด ตั้งแต่การเขียนสคริปต์สำหรับหู การเลือกโมเดลที่เหมาะสม การควบคุมลีลาการอ่าน ไปจนถึงการทำวิดีโอให้สำเร็จโดยไม่ต้องออกจากแพลตฟอร์ม

สรุปสั้น: เขียนประโยคสั้น เลือกโมเดลเสียงคุณภาพสูง สร้างที่ พื้นที่ทำงานเสียงของ OmniArt ปรับแต่งด้วยเครื่องหมายวรรคตอนและคำสั่งอินไลน์ จากนั้นนำเสียงไปวางบนภาพ รายละเอียดอยู่ด้านล่าง

ขั้นตอนที่ 1: เขียนสคริปต์สำหรับหู

สคริปต์ YouTube ไม่ใช่เรียงความ ผู้ชมไม่สามารถอ่านซ้ำประโยคที่พลาดไป ไม่ตาม ก็ไม่ตาม นั่นหมายความว่า:

รักษาประโยคให้สั้น หนึ่งแนวคิดต่อประโยค ไม่เกิน 15 คำหากทำได้
ใช้คำนำทาง "ก่อนอื่น... จากนั้น... สุดท้าย..." ช่วยให้ผู้ฟังรู้ว่าตนเองอยู่ตรงไหนโดยไม่ต้องมีสารบัญ
หลีกเลี่ยงประโยคซ้อน "โมเดลที่ผ่านการฝึกด้วยข้อมูลหลายภาษาและรองรับอินเตอร์เจกชันแบบอินไลน์สามารถจัดการโทนเสียงได้ดี" ฟังยากมากที่ความเร็ว 1.25 เท่า แยกออกมาเป็นหลายประโยค
อ่านออกเสียงดัง ถ้าคุณสะดุด โมเดลก็จะสะดุดด้วย เขียนใหม่จนฟังดูเป็นธรรมชาติ
พูดกับผู้ฟัง ไม่ใช่พูดถึงหัวข้อ "คุณอาจอยากเลือกโมเดล HD" ฟังอบอุ่นกว่า "ครีเอเตอร์ควรพิจารณาโมเดล HD"

สคริปต์ Shorts 1,500 ตัวอักษรเท่ากับเสียงบรรยายประมาณ 90 วินาที ใช้เป็นเป้าหมายความยาวที่เหมาะสม

ขั้นตอนที่ 2: เลือกโมเดล

OmniArt มีโมเดลเสียง 5 แบบที่ปรับแต่งสำหรับงานต่างกัน จับคู่โมเดลกับงาน ไม่ใช่กับความคุ้นเคย

โมเดล	แผน	จำกัดตัวอักษร	ราคา	เหมาะสำหรับ
MiniMax Speech 2.8 HD	ฟรี	10,000 ตัวอักษร	1 เครดิต / บล็อก 50 ตัวอักษร	เสียงบรรยายขัดเกลา งานยาว
MiniMax Speech 2.8 Turbo	ฟรี	10,000 ตัวอักษร	1 เครดิต / บล็อก 100 ตัวอักษร	ร่างด่วน ทดสอบประโยคเปิด
Eleven Multilingual v2	Starter	10,000 ตัวอักษร	50 เครดิต/คำขอ	พากย์เสียงหลายภาษา ช่องท้องถิ่น
Eleven v3	Starter	5,000 ตัวอักษร	50 เครดิต/คำขอ	การอ่านที่มีอารมณ์ด้วยแท็กเสียง
Eleven Turbo v2.5	Starter	40,000 ตัวอักษร	100 เครดิต/คำขอ	วิดีโอเรียงความยาวครบจบในครั้งเดียว

MiniMax Speech 2.8 HD คือตัวเลือกมาตรฐานสำหรับเสียงบรรยาย YouTube คุณภาพสูง ได้รับการประเมินสูงในการทดสอบฟังแบบปิดตา และจัดการเนื้อหายาวได้สะอาด ใช้สำหรับการบันทึกขั้นสุดท้าย

MiniMax Speech 2.8 Turbo ค่าเครดิตครึ่งหนึ่งและเร็วพอจะทดสอบประโยคเปิดยี่สิบแบบในหนึ่งเซสชัน ร่างด้วย Turbo แล้วขัดด้วย HD

Eleven Multilingual v2 คือโมเดลที่ถูกต้องเมื่อคุณพากย์เสียงเนื้อหาสำหรับผู้ชมต่างประเทศ รักษาลีลาการอ่านให้สม่ำเสมอข้ามภาษา มีประโยชน์เมื่อสร้างวิดีโอเดียวกันในหลายเวอร์ชันท้องถิ่น

Eleven v3 ปลดล็อกแท็กเสียงในวงเล็บเหลี่ยม เช่น [excited] หรือ [whispers] ที่ปรับการอ่านให้เหนือกว่าเครื่องหมายวรรคตอน เลือกใช้เมื่อสคริปต์ต้องการความหลากหลายทางอารมณ์ที่โมเดลอื่นทำไม่ได้

Eleven Turbo v2.5 รองรับสคริปต์สูงสุด 40,000 ตัวอักษรในครั้งเดียว เทียบเท่าเสียงบรรยายสารคดี 45 นาที หากวิดีโอเรียงความของคุณยาวมาก นี่คือโมเดลเดียวที่จัดการได้โดยไม่ต้องแบ่งสคริปต์

เคล็ดลับ

OmniArt มีพรีเซ็ตเสียง 353 รายการที่คัดสรรมาแล้วในโมเดลเสียงทั้งหมด ลองดูก่อนล็อกเสียง พรีเซ็ตที่เหมาะสมมีผลต่อการอ่านมากกว่าการปรับพรอมต์ใด

ขั้นตอนที่ 3: สร้างที่พื้นที่ทำงานเสียง

เปิด พื้นที่ทำงานเสียงของ OmniArt
เลือกโมเดลเสียงจากตัวเลือกโมเดล
เลือกพรีเซ็ตเสียง ลองฟังหลาย ๆ แบบ พรีเซ็ตคือตัวแปรที่ใหญ่ที่สุดที่ส่งผลต่อความรู้สึกของผลลัพธ์
วางสคริปต์ลงในช่องพรอมต์
สร้างและฟัง

ครั้งแรกเป็นเพียงฐาน ไม่ใช่ขั้นสุดท้าย ฟังเพื่อตรวจจังหวะ การเน้น และการหยุดที่ไม่เป็นธรรมชาติ ซึ่งทั้งหมดสามารถแก้ไขได้ในขั้นตอนถัดไป

ขั้นตอนที่ 4: ปรับแต่งการอ่านด้วยเครื่องหมายวรรคตอนและอินเตอร์เจกชัน

คุณไม่สามารถกดปุ่ม "ทำให้ฟังดูไม่แบนกว่านี้" แต่คุณสามารถแก้ไขสคริปต์เพื่อนำทางการอ่านได้

เครื่องหมายวรรคตอนสร้างจังหวะ เครื่องหมายจุลภาคสร้างจังหวะสั้น ขีดกลาง — แบบนี้ — เพิ่มครึ่งจังหวะที่รู้สึกต่างจากเครื่องหมายจุลภาค จุดไข่ปลา... สร้างความลังเล จุดสิ้นสุดความคิดอย่างสมบูรณ์ ใช้โดยตั้งใจ ไม่ใช่ตามหลักไวยากรณ์

เครื่องหมายคำถามกระตุ้นเสียงสูงขึ้นตามธรรมชาติ หากประโยคควรสูงขึ้นตอนจบ ให้เขียนเป็นคำถามแม้เนื้อหาจะเป็นแบบบรรยาย "สงสัยอยู่ว่าจะเลือกโมเดลไหนดี?" แทน "ส่วนนี้ครอบคลุมการเลือกโมเดล"

ตัวพิมพ์ใหญ่เป็นสัญญาณเน้น "This is IMPORTANT" หรือ "You need to pick the RIGHT voice" จะเน้นคำที่เป็นตัวพิมพ์ใหญ่ในโมเดลส่วนใหญ่ ใช้อย่างระมัดระวังไม่เช่นนั้นจะฟังดูเหมือนตะโกน

อินเตอร์เจกชันแบบอินไลน์ของ MiniMax HD ให้คุณแทรกสัญญาณอารมณ์กลางสคริปต์ด้วยการใส่ไว้ในวงเล็บ: (laughs), (sighs), (clears throat) สิ่งเหล่านี้กระตุ้นเสียงธรรมชาติก่อนประโยคถัดไป

แท็กเสียงของ Eleven v3 ใช้วงเล็บเหลี่ยม: [excited], [whispers], [dramatic pause] วางไว้ตรงหน้าประโยคที่ต้องการส่งผลทันที

หมายเหตุ

อินเตอร์เจกชันและแท็กเสียงไม่ใช่สากล ขึ้นอยู่กับแต่ละโมเดล อินเตอร์เจกชันทำงานใน MiniMax Speech 2.8 HD แท็กวงเล็บเหลี่ยมทำงานใน Eleven v3 การใช้สัญลักษณ์ผิดในโมเดลผิดจะให้ผลลัพธ์ที่เสียหาย ดูอ้างอิงไวยากรณ์ฉบับเต็มใน คู่มือแท็กเสียง Eleven v3 และ คู่มือเสียงบรรยาย MiniMax Speech 2.8

ตัวอย่างจริง: ค่าเครดิตสำหรับสคริปต์ Shorts

เสียงบรรยาย YouTube Shorts ทั่วไปมีประมาณ 1,500 ตัวอักษร นี่คือวิธีคำนวณเครดิตบน MiniMax Speech 2.8 HD ที่เรียกเก็บ 1 เครดิตต่อบล็อก 50 ตัวอักษร:

1,500 ตัวอักษร ÷ 50 ตัวอักษร/บล็อก = 30 บล็อก
30 บล็อก × 1 เครดิต = 30 เครดิต สำหรับเสียงบรรยาย Shorts ทั้งหมด

หากร่างด้วย Turbo (1 เครดิตต่อบล็อก 100 ตัวอักษร) สคริปต์เดียวกันมีค่า 15 เครดิต ต่อการร่าง ลองร่าง 10 ครั้ง เลือกที่ดีที่สุด แล้วขัดด้วย HD อีก 30 เครดิต รวม: ประมาณ 180 เครดิตเพื่อค้นหาและเสร็จสิ้นเสียงบรรยายคุณภาพสูงหนึ่งชิ้น

พากย์เสียงหลายภาษาสำหรับผู้ชมต่างประเทศ

การขยายช่อง YouTube ออกไปนอกภาษาเดียวเป็นการเดิมพันแบบทบต้น วิดีโอเดียวกัน พากย์เป็นสเปน โปรตุเกส หรือญี่ปุ่น สามารถเข้าถึงผู้ชมกลุ่มใหม่โดยไม่มีค่าใช้จ่ายการผลิตเพิ่มเติมนอกจากค่าเสียงบรรยาย

ขั้นตอนเหมือนกัน:

แปลสคริปต์ (เครื่องมือแปล ผู้ร่วมงานสองภาษา หรือการแปลโดยโมเดลที่ผ่านการตรวจสอบโดยเจ้าของภาษา)
กลับไปที่ OmniArt เสียง และเลือก Eleven Multilingual v2
เลือกพรีเซ็ตเสียงที่เหมาะกับภาษาเป้าหมาย พรีเซ็ตหลายรายการมีป้ายกำกับตามภาษาหรือภูมิภาค
วางสคริปต์ที่แปลแล้วและสร้าง

Eleven Multilingual v2 รักษาจังหวะและลีลาการอ่านให้สม่ำเสมอข้ามภาษา ซึ่งมีความสำคัญเมื่อเสียงพากย์ต้องซิงค์กับภาพที่ตัดตามเวลาของต้นฉบับ

คำเตือน

นโยบายการสร้างรายได้ของ YouTube กำหนดว่าเนื้อหาต้องมีการมีส่วนร่วมที่มีความหมายจากครีเอเตอร์ เสียงบรรยาย AI เพียงอย่างเดียวไม่ได้ยกเว้นวิดีโอจากนโยบายของแพลตฟอร์มเกี่ยวกับการเปิดเผยเนื้อหาสังเคราะห์ ตรวจสอบแนวทางปัจจุบันของ YouTube เสมอ และเพิ่มการเปิดเผยในคำอธิบายวิดีโอของคุณเมื่อใช้เสียงที่สร้างโดย AI

ทำวิดีโอให้สำเร็จใน OmniArt

เมื่อได้เสียงบรรยายแล้ว การผลิตที่เหลือสามารถดำเนินต่อในพื้นที่ทำงานเดียวกันได้

ภาพ — สร้างคลิป B-roll ด้วยโมเดลวิดีโอของ OmniArt ตัดตามจังหวะเสียงบรรยาย ฉากใหม่ทุกประโยค หรือเก็บไว้นานขึ้นสำหรับจุดที่ซับซ้อนกว่า
ดนตรี — เพิ่มเพลงประกอบด้วย MiniMax Music 2.6 หรือ Lyria 3 Pro เพลงรองพื้นที่ประมาณ -18 dB ใต้เสียงบรรยายเพิ่มความมีชีวิตชีวาโดยไม่แข่งขัน
เอฟเฟกต์เสียง — สร้างเอฟเฟกต์เสียงสำหรับการเปลี่ยนฉากและจุดเน้น ดูขั้นตอนใน คู่มือสร้างเอฟเฟกต์เสียง AI

ข้อได้เปรียบหลักของการทำงานข้ามรูปแบบสื่อในที่เดียวคือการวนซ้ำ: เปลี่ยนเสียงบรรยาย สร้างเอฟเฟกต์เสียงที่ล้อมรอบใหม่ และปรับจุดดนตรีในเซสชันเดียวกัน แทนที่จะวนรอบระหว่างเครื่องมือสามอย่างแยกกันและส่งออกไฟล์

สำหรับวิดีโอสั้นโดยเฉพาะ ดู คู่มือวิดีโอ AI สำหรับ TikTok และ YouTube Shorts สำหรับขั้นตอนวิดีโอแบบ vertical-first ที่ออกแบบมาคู่กับคู่มือนี้

เริ่มต้นบน OmniArt

เขียนสคริปต์ 1,500 ตัวอักษร เท่ากับเสียงบรรยายหนึ่ง Shorts เปิด พื้นที่ทำงานเสียงของ OmniArt เลือก MiniMax Speech 2.8 HD เลือกดูพรีเซ็ตเสียง และสร้างครั้งแรก ฟังจังหวะและการเน้น แก้ไขสคริปต์ด้วยเครื่องหมายวรรคตอน และรันครั้งที่สอง เสียงบรรยายส่วนใหญ่เสร็จใน 2-3 ครั้ง จากนั้นสร้างภาพให้ตรงกัน เพิ่มเพลงรองพื้น และคุณมีวิดีโอสำเร็จรูปที่สร้างในที่เดียว

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI

เริ่มฟรี