guideโมเดลและข้อมูลเชิงลึกอ่าน 3 นาที

สร้างเสียงพื้นฐานในรอบเดียว: บทสนทนา ซิงค์ปาก และเสียงบรรยากาศใน Grok Imagine 1.5

Grok Imagine 1.5 สร้าง token เสียงและวิดีโอในการอนุมานครั้งเดียว ทั้งบทสนทนา ซิงค์ปาก เอฟเฟกต์เสียง และดนตรีบรรยากาศรวมกัน เรียนรู้วิธีกำกับการออกแบบเสียงในพรอมต์ พร้อมตัวอย่างฉากจริงสามฉากใน OmniArt

ทีม OmniArt11 มิ.ย. 2569

โมเดลวิดีโอ AI ส่วนใหญ่สร้างคลิปที่ไม่มีเสียง คุณต้องส่งออกวิดีโอ นำเข้า DAW หรือเครื่องมือเสียงแยกต่างหาก หาบทพูด เสียงบรรยากาศ และดนตรีจากผู้ให้บริการต่างกัน จัดเรียงทุกอย่าง แล้วหวังว่าการซิงค์จะยังคงอยู่ Grok Imagine 1.5 ขจัดขั้นตอนทั้งหมดนั้น เสียง ทั้งบทสนทนา ซิงค์ปาก เอฟเฟกต์เสียง และชั้นบรรยากาศ ถูกสร้างขึ้นในรอบการอนุมานเดียวกับเฟรมวิดีโอ ผลลัพธ์คือคลิปที่มาพร้อมกับเสียงของมันเองตั้งแต่ต้น คู่มือนี้อธิบายวิธีทำงานของกลไกเสียงพื้นฐาน จุดที่ 1.5 ดีกว่า 1.0 และวิธีเขียนเสียงลงในพรอมต์เพื่อให้โมเดลนำคำสั่งเหล่านั้นไปใช้จริง

กลไกการสร้างเสียงพื้นฐานทำงานอย่างไร

โมเดลวิดีโอ AI แบบดั้งเดิมถือว่าเสียงเป็นขั้นตอนหลังการประมวลผล สร้าง token วิดีโอก่อน แล้วจึงรันโมเดลเสียงบนผลลัพธ์ พยายามจับคู่กับสิ่งที่เรนเดอร์ไปแล้ว เนื่องจากสองรอบนั้นเป็นอิสระจากกัน การไม่ตรงกันของจังหวะเวลาจึงเกิดขึ้นบ่อย ประตูที่ดังก่อนหนึ่งเฟรม บทพูดที่หายใจผิดจังหวะ ชั้นเสียงบรรยากาศที่ไม่ตอบสนองต่อการเปลี่ยนฉาก

Grok Imagine 1.5 สร้าง token วิดีโอและเสียงร่วมกันในรอบการอนุมานเดียว โมเดลเห็นบริบทฉากทั้งหมด ทั้งการจัดเฟรม การเคลื่อนไหวของตัวละคร อารมณ์แสง ขณะที่ตัดสินใจว่าจะสร้างเสียงอะไรและเมื่อใด การเคลื่อนไหวของริมฝีปากถูกกำหนดรูปร่างพร้อมกับรูปคลื่นเสียง ไม่ใช่ถูกกำหนดทีหลัง ชั้นบรรยากาศตอบสนองต่อสภาพแวดล้อมภาพที่โมเดลกำลังสร้าง ไม่ใช่เฟรมที่ส่งออกมาแล้วที่ต้องตีความย้อนหลัง

หมายเหตุ

การสร้างในรอบเดียวไม่ได้หมายความว่าความเที่ยงตรงของเสียงไม่มีขีดจำกัด คลิปสูงสุดที่ 720p, 24fps และ 1–15 วินาที เหมือนการสร้าง Grok Imagine ทุกประเภท สิ่งที่เปลี่ยนแปลงคือความสอดคล้องระหว่างสิ่งที่เห็นและสิ่งที่ได้ยิน

สิ่งที่เปลี่ยนแปลงจาก 1.0 ไป 1.5

Grok Imagine 1.0 มีเสียงพื้นฐานด้วย แต่ผลลัพธ์มีปัญหาสองอย่างที่เกิดขึ้นสม่ำเสมอ จังหวะเวลาของบทสนทนาเป็นแบบกลไก ตัวละครพูดในจังหวะที่สม่ำเสมอเหมือนเมตรอนอมโดยไม่มีการหยุดตามธรรมชาติ การขึ้นลงของเสียง หรืออินโทเนชันระดับประโยค ชั้นบรรยากาศแบนราบ ฉากบนถนนที่คึกคักได้รับเสียงฝูงชนทั่วไปโดยไม่คำนึงถึงความหนาแน่นของภาพ สภาพอากาศ หรือเวลาของวัน

Grok Imagine 1.5 แก้ไขทั้งสองอย่าง การส่งมอบบทสนทนาตอนนี้เคารพจังหวะของประโยค ความคิดสั้นๆ มาเร็ว ช่วงเวลาอารมณ์ช้าลงเล็กน้อย คำถามมีการขึ้นเสียงที่ได้ยินได้ที่ท้ายประโยค ชั้นบรรยากาศกลายเป็นแบบตอบสนองต่อฉาก ตลาดกลางคืนที่เปียกฝนฟังดูต่างจากตลาดเวลาเที่ยงที่แห้ง เพราะโมเดลอ่านสัญญาณภาพที่กำลังสร้างและปรับมิกซ์เสียงตามนั้น

ความสามารถ	Grok Imagine 1.0	Grok Imagine 1.5
จังหวะบทสนทนา	กลไก จังหวะสม่ำเสมอ	หยุดตามธรรมชาติ อินโทเนชันระดับประโยค
ซิงค์ปาก	จำได้ แต่แข็งทื่อ	ซิงค์กับรูปคลื่นเสียงที่สร้างขึ้น
ชั้นบรรยากาศ	แบนราบ ไม่ตอบสนองต่อฉาก	ตอบสนองต่อฉาก เป็นชั้น
เอฟเฟกต์เสียง	มีแต่มิกซ์น้อยไป	ผสานกับเหตุการณ์ภาพ
ดนตรีพื้นหลัง	เป็นครั้งคราว ทั่วไป	การสกอร์อัตโนมัติตามอารมณ์ (เป็นทางเลือก)

การจัดอันดับ Arena สะท้อนถึงการปรับปรุง Grok Imagine 1.5 ได้ +52 Elo เหนือ 1.0 เพื่อขึ้นอันดับ 1 ใน Image-to-Video Arena นำหน้า Seedance 2.0, HappyHorse 1.0 และ Google Veo ในการทดสอบแบบตาบอด เครื่องยนต์ Aurora ประมวลผลเฟรมตามลำดับ ซึ่งทำให้การเคลื่อนไหวสอดคล้องพอที่รอบเสียงจะสร้างการซิงค์ที่มีประโยชน์

วิธีเขียนเสียงลงในพรอมต์

การกำกับเสียงในพรอมต์ภาษาธรรมชาติปฏิบัติตามรูปแบบที่สอดคล้องกันบางอย่าง โมเดลถือว่าสัญญาณเสียงเป็นส่วนหนึ่งของคำอธิบายฉาก ไม่ใช่บล็อกคำสั่งแยกต่างหาก ดังนั้นคุณฝังเสียงพร้อมกับการถ่ายภาพยนตร์ ไม่ใช่หลังจากนั้น

ระบุบทพูดและวิธีการส่งมอบ

อย่าสมมติว่าโมเดลจะคิดคำที่ถูกต้องเอง เขียนบรรทัดอย่างชัดเจนและตามด้วยหมายเหตุการส่งมอบ

ไม่มีการกำกับเสียง	มีการกำกับเสียง
"บาริสต้ากำลังคุยกับลูกค้า"	"บาริสต้าพูดว่า 'คำสั่งของคุณจะใช้เวลาประมาณห้านาที' ด้วยการส่งมอบที่อบอุ่นและไม่รีบร้อน มีเสียงคาเฟ่เป็นพื้นหลัง"

หมายเหตุการส่งมอบที่ทำงานได้ดี: อบอุ่น, เร่งด่วน, แบนและเหนื่อย, หายใจแรงเล็กน้อย, เบาแต่มั่นคง คำคุณศัพท์หนึ่งคำมักเพียงพอ สองคำขึ้นไปเริ่มขัดแย้งกัน

ระบุชั้นบรรยากาศอย่างชัดเจน

เมื่อคุณปล่อยให้บรรยากาศไม่ระบุ โมเดลจะเลือกบางอย่างที่ทั่วไป การตั้งชื่อชั้น รวมถึงระดับสัมพัทธ์ ให้เป้าหมายที่จะมุ่งไป

"ภาพใกล้ของเชฟที่กำลังจัดจาน: เสียงกระทะดังขึ้นในพื้นหลัง เสียงระบายอากาศในครัวที่เงียบ เสียงช้อนกระทบพอร์ซเลน ไม่มีดนตรี"

วลี ไม่มีดนตรี มีประโยชน์เมื่อคุณต้องการให้ฉากพึ่งพาเพียงเอฟเฟกต์เสียงและโทนของห้อง หากไม่มี โมเดลอาจเพิ่มสกอร์เบาๆ

อธิบายจังหวะและการหยุด

การหยุดคือเหตุการณ์เสียง หากตัวละครลังเลก่อนตอบ หรือคุณต้องการเสียงเงียบสองจังหวะก่อนเอฟเฟกต์เสียงจะเข้ามา ให้บอกอย่างชัดเจน

"เธอมองดูจดหมาย เงียบสองวินาที แล้วหายใจออกแรง"

ตัดสินใจว่าจะใช้การสกอร์อัตโนมัติหรือจำกัดเสียง

หากคุณไม่กล่าวถึงดนตรี Grok Imagine 1.5 อาจสกอร์คลิปโดยอัตโนมัติด้วยคิวที่ตรงกับอารมณ์ สายเบาๆ สำหรับฉากอารมณ์ จังหวะขับเคลื่อนสำหรับแอคชัน ซึ่งใช้ได้ดีสำหรับร่างโซเชียลที่รวดเร็ว สำหรับงานที่แม่นยำ เมื่อคุณต้องการความเงียบ ประเภทเฉพาะ หรือจังหวะที่ตกลงบนการตัด ให้จำกัดอย่างชัดเจน ตั้งชื่อประเภท ความรู้สึกของจังหวะ หรือเขียน ไม่มีดนตรีพื้นหลัง เพื่อปิด

เคล็ดลับ

อารมณ์เสียงที่สอดคล้องกันหนึ่งอย่างต่อคลิป อย่าขอ "ดนตรีที่มีพลังงานและร่าเริง แต่ก็เงียบและไตร่ตรอง" โมเดลจะเลือกหนึ่งอย่างและมันจะไม่ใช่สิ่งที่คุณจินตนาการ

สามฉากตัวอย่าง

ตัวอย่างเหล่านี้แสดงรูปแบบพรอมต์เต็มในทางปฏิบัติ แต่ละอย่างรวมถึงการตั้งค่าภาพ การกำกับเสียง และสิ่งที่รอบเสียงพื้นฐานสร้างขึ้น

ฉากที่ 1: ภาพใกล้บทสนทนาพร้อมซิงค์ปาก

เป้าหมาย: ตัวละครส่งมอบบรรทัดเดียวไปยังกล้อง ช็อตต้องการการซิงค์ปากที่สะอาดและการส่งมอบตามธรรมชาติ ไม่ใช่แทร็กเสียงพากย์ที่หาแหล่งต่างหาก

พรอมต์:

"ภาพใกล้กลางของผู้หญิงวัยปลาย 30 ที่โต๊ะในครัว แสงตอนเช้าจากหน้าต่างทางซ้าย เธอมองตรงไปที่กล้องและพูดว่า 'ฉันไม่คิดว่ามันจะใช้เวลานานขนาดนี้' ด้วยการส่งมอบที่เหนื่อยและซื่อสัตย์ หยุดเล็กน้อยหลัง 'คิดว่า' เสียงลดลงที่ท้าย พื้นหลัง: เสียงตู้เย็นดังต่ำ ไม่มีดนตรี"

สิ่งที่คาดหวัง: โมเดลสร้างเสียงบทสนทนาและการเคลื่อนไหวของปากในรอบเดียวกัน การหยุดกลางประโยคกำหนดรูปร่างทั้งรูปคลื่นเสียงและการเคลื่อนไหวของริมฝีปากที่มองเห็น เสียงตู้เย็นอยู่ใต้บทสนทนาในระดับต่ำโดยไม่แข่งขัน

ตัวปรับ: หากการส่งมอบแบนเกินไป ให้เพิ่ม น้ำหนักทางอารมณ์ ในหมายเหตุการส่งมอบ หากเสียงดังเกินไป ให้เพิ่ม แทบไม่ได้ยิน ก่อนมัน

ฉากที่ 2: สภาพแวดล้อมบรรยากาศแบบชั้น

เป้าหมาย: ตลาดกลางคืนที่เปียกฝน ไม่มีบทสนทนา บรรยากาศล้วนๆ เสียงต้องรู้สึกเป็นชั้นและมีอยู่จริงทางกายภาพ ไม่ใช่ไฟล์เสียงวนซ้ำเดียว

พรอมต์:

"Dolly ช้าๆ ผ่านตลาดกลางคืนที่คึกคักในฝนหนัก ป้ายนีออนสะท้อนในแอ่งน้ำ ไอน้ำลอยขึ้นจากแผงขายอาหาร ชั้นเสียง: ฝนหนักบนผ้าใบกันสาด (ชั้นบน) เสียงกระทะผัดดังจากแผงใกล้เคียง เสียงพูดคุยของฝูงชนที่แผ่วเบาในระยะไกล ไม่มีดนตรี เงียบพอที่จะรู้สึกถึงความใกล้ชิด ไม่ท่วมท้น"

สิ่งที่คาดหวัง: เนื่องจากโมเดลกำลังสร้างฉากภาพ ผ้าใบกันสาด แผง ความหนาแน่นของฝูงชน มันสามารถตอบสนองต่อองค์ประกอบเหล่านั้นในรอบเสียง เสียงกระทะจากแผงที่มองเห็นในเฟรมจะมีแนวโน้มดังกว่าเสียงฝูงชนที่วางไว้ไกลออกไปในเชิงพื้นที่

ตัวปรับ: เพิ่ม หยดฝนแบบไมค์ใกล้ สำหรับพื้นผิวมากขึ้น ระบุ พ่อค้าเรียกลูกค้าในระยะไกล เพื่อแนะนำองค์ประกอบเสียงเชิงเล่าเรื่องโดยไม่มีบทสนทนาทางการ

คำเตือน

คลิปทำงาน 1–15 วินาที ฉากบรรยากาศที่มีหลายชั้นทำงานได้ดีที่สุดที่ 8–12 วินาที มีระยะเวลาเพียงพอสำหรับโมเดลในการสร้างชั้นก่อนที่คลิปจะจบ คลิปสั้นมาก (2–4 วินาที) อาจเรนเดอร์เฉพาะชั้นที่โดดเด่น

ฉากที่ 3: จังหวะที่ขับเคลื่อนด้วยดนตรี

เป้าหมาย: การเคลื่อนไหวของนักเต้นต้องซิงค์กับความรู้สึกจังหวะเฉพาะ ไม่ใช่โดยบังเอิญ แต่เป็นการออกแบบหลักของคลิป

พรอมต์:

"ภาพใกล้สโลว์โมชันของเท้านักเต้นที่ตีพื้นไม้ในสตูดิโอมืด ไฟสปอตไลท์เดียวด้านบน แต่ละก้าวตกลงบนจังหวะ เสียง: เทคโนมินิมัลที่ขับเคลื่อนที่ประมาณ 120 BPM เสียงกระแทกของแต่ละก้าวมิกซ์เข้าในจังหวะเพื่อให้เสียงทางกายภาพและดนตรีรู้สึกเป็นเหตุการณ์เดียวกัน ไม่มีเสียงรบกวนในห้อง เสียงแห้งและแน่น"

สิ่งที่คาดหวัง: โมเดลจะสร้างดนตรีและถือว่าการกระแทกของเท้าเป็นเหตุการณ์เสียงจังหวะภายในมัน เนื่องจากการเคลื่อนไหวและเสียงถูกสร้างร่วมกัน จังหวะเวลาภาพของการตีแต่ละครั้งมีโอกาสดีกว่าที่จะตรงกับจังหวะมากกว่าในเวิร์กโฟลว์สองรอบ

ตัวปรับ: ระบุประเภทที่แตกต่างกัน มินิมัลเฮาส์, การตีกลองออเคสตร้า, ฮิปฮอปที่ 90 BPM เพื่อเปลี่ยนความรู้สึก เพิ่ม เรเวิร์บในห้องเล็กน้อย หากเสียงแห้งรู้สึกเป็นทางคลินิกเกินไป

สรุปแนวทางปฏิบัติที่ดีที่สุด

สิ่งที่ทำ	เหตุใดสำคัญ
เขียนบทสนทนาตามตัวอักษร	โมเดลต้องการข้อความที่แน่นอนเพื่อสร้างการซิงค์ปาก
ตั้งชื่อชั้นบรรยากาศอย่างชัดเจน	คำอธิบายทั่วไปสร้างเสียงทั่วไป
ใช้ `ไม่มีดนตรี` เมื่อต้องการความเงียบหรือเฉพาะเอฟเฟกต์	ป้องกันการสกอร์อัตโนมัติไม่ให้แทนที่เจตนาของคุณ
รักษาอารมณ์เสียงที่สอดคล้องกันหนึ่งอย่าง	คำสั่งเสียงที่ขัดแย้งให้ผลลัพธ์เฉลี่ยและไม่ชัดเจน
อธิบายการหยุดเป็นเหตุการณ์เสียง	การหยุดกำหนดรูปร่างทั้งรูปคลื่นและการเคลื่อนไหวของริมฝีปาก เป็นส่วนหนึ่งของการซิงค์
จำกัดดนตรีด้วยประเภทและจังหวะ	"ดนตรี" โดยไม่มีทิศทางค่าเริ่มต้นเป็นอะไรบางอย่างที่ทั่วไป

ค่าใช้จ่ายในเครดิต OmniArt

เสียงพื้นฐานรวมอยู่โดยไม่มีค่าใช้จ่ายเพิ่มเติมต่อวินาที อัตราเครดิตเหมือนกับการสร้าง Grok Imagine ทุกประเภท

ความละเอียด	เครดิตต่อวินาที
480p	10 เครดิต / วินาที
720p	15 เครดิต / วินาที

ฉากบทสนทนา 10 วินาทีที่ 720p มีค่าใช้จ่าย 150 เครดิต ฉากบรรยากาศ 12 วินาทีที่ 480p มีค่าใช้จ่าย 120 เครดิต หากคุณกำลังวนซ้ำในการกำกับเสียงโดยเฉพาะ ปรับหมายเหตุการส่งมอบหรือคำอธิบายชั้นบรรยากาศ เริ่มต้นที่ 480p ซึ่งมีค่าใช้จ่ายน้อยกว่าหนึ่งในสาม และอัปสเกลเฉพาะเทคที่คุณต้องการเก็บ

เริ่มต้นบน OmniArt

Grok Imagine 1.5 พร้อมใช้งานในพื้นที่ทำงานวิดีโอของ OmniArt พร้อมกับโมเดลอื่นๆ ทุกตัวในไลบรารี ยอดเครดิตเดียวกัน อินเทอร์เฟซพรอมต์เดียวกัน ไม่ต้องสมัครสมาชิก xAI แยกต่างหาก วิธีที่เร็วที่สุดในการเรียนรู้สิ่งที่เสียงพื้นฐานทำได้คือการเขียนบทสนทนาหนึ่งบรรทัดลงในพรอมต์สร้างวิดีโอจากข้อความและดูว่าโมเดลจัดการอย่างไร จากนั้นวนซ้ำจากตรงนั้น

สำหรับภาพรวมทั้งหมดเกี่ยวกับโหมดการสร้าง ราคา และเมื่อใดควรใช้กับโมเดลอื่น โปรดดู คู่มือครีเอเตอร์ Grok Imagine หากคุณหาเอฟเฟกต์เสียงเพิ่มเติม บรรยากาศ หรือดนตรีนอกรอบการสร้างวิดีโอ คู่มือตัวสร้างเอฟเฟกต์เสียง AI ครอบคลุมโมเดลเสียงเฉพาะของ OmniArt

พร้อมสร้างหรือยัง?

เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI

เริ่มฟรี