Veo 3.1 spatial audio: แนวทางปฏิบัติที่ดีสำหรับเสียงที่เข้ากับทุกช็อต
Veo 3.1 สร้างบทพูด บรรยากาศ และ SFX ร่วมกับวิดีโอพร้อมความลึกแบบมีทิศทางจริง เรียนรู้วิธีเขียน prompt แต่ละ layer อย่างตั้งใจเพื่อให้เสียงเข้ากับช็อตใน OmniArt

เสียงใน AI วิดีโอส่วนใหญ่ฟังดู "วางอยู่" แทนที่จะ "อยู่จริง" คลิปตลาดคึกคักได้ยินเสียงฝูงชน คลิปป่าได้ยินเสียงนก ถูกต้องทางเทคนิค แต่ไม่น่าเชื่อเพราะเสียงไม่รู้ว่าแต่ละสิ่งอยู่ที่ไหนในเฟรม Veo 3.1 เปลี่ยนสิ่งนี้ด้วย native spatial audio โมเดลสร้างเสียงพร้อมกับวิดีโอ รู้ว่าอะไรอยู่ใกล้ อะไรอยู่ไกล อะไรถูกกลั่นกรอง และอะไรดังทะลุออกมา ประตูที่ปิดหลังตัวละครฟังต่างจากประตูที่ปิดในเบื้องหน้า เสียงรถยนต์สามชั้นข้างล่างเบาและกระจายกว่าเสียงรถที่ระดับถนน คู่มือนี้อธิบายวิธีทำงานของการสร้างเสียงแบบ joint ของ Veo วิธีคิดแยก 3 layer เสียง และวิธีเขียน prompt ที่ให้ความลึกเชิงพื้นที่ตั้งแต่ครั้งแรก พร้อม 3 ฉากตัวอย่างที่ปรับใช้ได้ทันที
Veo 3.1 native audio ทำงานอย่างไร
Veo 3.1 สร้างเสียงและวิดีโอในรอบเดียวแบบ joint pass ต่างจาก pipeline 2 ขั้นที่ส่งออกวิดีโอเงียบแล้วให้โมเดลเสียงพยายามจับคู่ Veo สร้างสภาพแวดล้อมเสียงพร้อมกับสร้างเฟรม โมเดลรู้ layout เชิงพื้นที่ของฉากที่กำลังสร้าง ว่าองค์ประกอบใดอยู่ใกล้กล้อง อะไรอยู่เบื้องหลัง สภาพแวดล้อมหนาแน่นแค่ไหน พื้นผิวจะดูดซับหรือสะท้อนเสียง
ผลในทางปฏิบัติคือ directional depth องค์ประกอบ near-field เช่น เสียงก้าวเท้าตัวละคร มือสัมผัสพื้นผิว การหายใจ อยู่ที่ระยะห่างที่แตกต่างจากองค์ประกอบเบื้องหลัง เช่น เสียงรถบนถนน เสียงฮัมของสิ่งแวดล้อม เสียงคนพูดคุย โมเดลสามารถซ้อน layer เหล่านี้ในระดับสัมพัทธ์ที่เหมาะสมเพราะกำลังสร้างฉากเชิงพื้นที่ ไม่ใช่อนุมานทีหลัง
หมายเหตุ
Veo 3.1 ยังส่งออก native 4K ซึ่งมีนัยสำคัญต่อการเขียน prompt เสียงอย่างหนึ่ง ความละเอียดภาพที่สูงกว่าหมายถึงรายละเอียดสภาพแวดล้อมในเฟรมมากขึ้น และรายละเอียดที่โมเดลเสียงจะตอบสนองได้มากขึ้น ภาพ close-up ถนนหินปูที่เปียกฝนใน 4K ให้ข้อมูลโมเดลมากกว่าภาพเดียวกันใน 720p แบบ soft render มาก
3 layer เสียงที่ควรคิดแยกกัน
วิธีที่น่าเชื่อถือที่สุดในการได้ผลลัพธ์ที่ใช้ได้จาก Veo 3.1 คือแยก instruction เสียงออกเป็น 3 layer ในหัวก่อนเขียน prompt แต่ละ layer มีลักษณะที่แตกต่างกันและตอบสนองต่อรูปแบบ prompt ที่ต่างกัน
บทพูด
บทพูดคือ layer ที่ควบคุมได้แม่นยำที่สุด โมเดลต้องการข้อมูลชัดเจน ว่าพูดอะไร ใครพูด และควรส่งอย่างไร ต่างจากเสียงบรรยากาศที่โมเดลอนุมานได้จาก context ภาพ บทพูดไม่มีตัวสัมพันธ์ทางภาพให้โมเดลอ่าน ตัวละครที่เดินและพูดดูเหมือนกันไม่ว่าจะท่องรายการซื้อของหรือกล่าวบทโมโนล็อก
เขียนบทพูดคำต่อคำแล้วตามด้วย delivery note คำ adjective การส่งที่กระชับหนึ่งคำมักได้ผลดีกว่าสองหรือสามคำ Delivery note ที่ทำงานได้ดี: warm and unhurried, flat and exhausted, urgent, just above a whisper, soft but careful Note ที่มักให้ผลลัพธ์เฉลี่ย: การซ้อนคำตรงข้ามเช่น relaxed but tense หรือ quiet but intense
Context เชิงพื้นที่สำคัญสำหรับบทพูดด้วย Voice close-mic'd, room barely audible ให้ผลต่างจาก voice slightly distant, reverberant room โมเดลจะปรับสภาพแวดล้อมเสียงตามระดับ ambient space ที่อธิบาย
บรรยากาศและสภาพแวดล้อม
บรรยากาศคือ layer ที่ Veo 3.1 จัดการได้โดดเด่นที่สุด เนื่องจากโมเดลรู้ layout เชิงพื้นที่ที่กำลังสร้าง คุณสามารถอธิบายสภาพแวดล้อมเป็น layer และระยะห่างได้ และโมเดลจะตอบสนองต่อคำอธิบายนั้นจริง
model ในการคิดที่มีประโยชน์ จินตนาการถึง 3 โซนวงกลมซ้อนกัน เบื้องหน้าใกล้ (ภายในระยะมือเอื้อมจากกล้อง) กลาง (พื้นที่ฉากที่มีการกระทำ) และเบื้องหลัง (สิ่งที่ได้ยินผ่านหน้าต่างหรือขอบเฟรม) การตั้งชื่อองค์ประกอบในแต่ละโซนและระบุระดับสัมพัทธ์ให้เป้าหมาย spatial mix แก่โมเดล
| โซน | องค์ประกอบตัวอย่าง | วลีใน prompt |
|---|---|---|
| เบื้องหน้า | เสียงผ้าสีกัน เสียงหายใจ มือบนพื้นผิว | "close fabric rustle", "subject's quiet breathing" |
| กลาง | เสียงก้าวเท้า การสนทนา เครื่องมือ เสียงทำอาหาร | "footsteps on concrete nearby", "clink of cups on the counter" |
| เบื้องหลัง | เสียงรถบนถนน เสียงฝูงชน เสียงฮัมของสิ่งแวดล้อม | "traffic muffled behind glass", "distant crowd, barely audible" |
ไม่จำเป็นต้องเติมทั้ง 3 โซน ฉากภายในแบบ minimalist อาจต้องการแค่องค์ประกอบกลางหนึ่งอย่างกับโทนห้องเบา การระบุโซนที่ไม่ควรมีเสียงมากเกินไปจะทำให้ mix รกรุงรัง
เอฟเฟกต์เสียง (SFX)
SFX คือ audio event แยกกันที่ผูกกับช่วงเวลาภาพเฉพาะ ประตูเปิด วางวัตถุ เสียงแจ้งเตือน ยานพาหนะผ่าน เนื่องจาก Veo สร้างเสียงร่วมกับวิดีโอ SFX ที่ตรงกับการกระทำที่มองเห็นบนหน้าจอมักซิงค์ตามธรรมชาติ โมเดลรู้ว่ามือกำลังเอื้อมหาแก้วก่อนที่จะสัมผัส
สำหรับ SFX ที่ต้องตกลงในตำแหน่งแม่นยำ อธิบายเป็น visual event ไม่ใช่ audio event "She sets the phone face-down on the desk" สั่งทั้ง visual action และเสียงที่เกิด "a clunk as the phone hits the desk" อธิบายเสียงเชิงนามธรรมและโมเดลซิงค์ได้ยากกว่า
เมื่อต้องการ SFX ที่ไม่ผูกกับการกระทำบนหน้าจอ เช่น เสียงจากนอกเฟรม หรือ environmental punctuation ให้จัดการเหมือน dialogue cue ตั้งชื่อชัดเจนและให้ context เชิงพื้นที่ "A car alarm starts briefly in the distance, off-frame right" แม่นยำกว่า "random street noise includes a car alarm"
3 ฉากตัวอย่าง
ตัวอย่างเหล่านี้แสดงรูปแบบ prompt ทั้งหมดที่ใช้กับสถานการณ์เสียง 3 แบบต่างกัน แต่ละอันแสดงความท้าทายเสียงหลักที่แตกต่างกัน
ฉากที่ 1: Near/far spatial layering บนถนน
บริบท: ตัวละครเดินตามถนนเชิงพาณิชย์ไปยังทางเข้าร้าน เสียงต้องแสดงความแตกต่างเชิงพื้นที่ระหว่างองค์ประกอบใกล้ (เสียงก้าวเท้าตัวละคร เสียงหายใจ ambient) และสภาพแวดล้อมรอบข้าง (รถยนต์ ประตูร้าน)
Prompt:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
สิ่งที่คาดหวัง: เสียงก้าวเท้าควรอยู่ใน near-field แยกชัดเจนจากเสียงรถ background การเปลี่ยนผ่านที่ประตู จากภายนอกสู่ภายในที่กลั่นกรองเสียง คือ spatial event ที่ prompt มุ่งเป้า และ joint generation ของ Veo หมายความว่าโมเดลรู้การบล็อกภาพของช่วงเวลานั้น
การปรับ: หากเสียงรถดังเกินไปเมื่อเทียบกับก้าวเท้า เพิ่ม traffic well back, not competing with footsteps หากการเปลี่ยนผ่านประตูกะทันหันเกินไป เพิ่ม gradual acoustic shift as the door opens
ฉากที่ 2: mood shot ไม่มีบทพูด พึ่งพาบรรยากาศล้วน
บริบท: ภาพภายในกว้างในยามเย็น ไม่มีบทพูด ไม่มีการกระทำชัดเจน เสียงต้องส่งอารมณ์ของฉากผ่าน layer สภาพแวดล้อมล้วน
Prompt:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
สิ่งที่คาดหวัง: Environmental mix แบบ layered ที่ช่วงเว้นระหว่างเหตุการณ์ได้ยินชัดเท่ากับตัวเหตุการณ์ โมเดลควรตีความ quiet enough to hear the silence between sounds เป็นคำสั่งระดับ mix รักษาทุกองค์ประกอบให้เบอพอให้ได้ยิน room tone
การปรับ: วลี quiet enough to hear the silence เสริมได้โดยเพิ่ม each element appearing only briefly, not constant เพิ่ม a phone buzzing once on a surface, off-frame เพื่อใส่ narrative punctuation โดยไม่ทำลายอารมณ์
เคล็ดลับ
ฉากที่ 3: Sentence-level intonation ในบทพูด
บริบท: ตัวละครถามคำถามเดียวหันหน้าเข้ากล้อง การส่งต้องมี intonation ระดับประโยคที่เป็นธรรมชาติ โดยเฉพาะการขึ้นที่ได้ยินได้ตอนท้ายคำถาม ไม่ใช่อ่านแบน
Prompt:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
สิ่งที่คาดหวัง: delivery note rising slightly on 'find out' และ genuinely confused rather than angry ควรกำหนดทั้ง audio waveform และ pitch contour ของการส่ง คำสั่ง room tone (no reverb) กำหนดสภาพแวดล้อมเสียงเพื่อให้บทพูดไม่ฟังดูเหมือนบันทึกในพื้นที่ต่างกัน
การปรับ: หากการส่งแบนเกินไป แทน quiet ด้วย controlled but emotionally present หากไม่ได้ยิน sentence intonation แยก delivery note ออกจาก emotional note ระบุ emotion ก่อน แล้วตามด้วย intonation instruction เฉพาะ
ก่อนสร้างใหม่: อ่านผลลัพธ์แบนหรือเป็นกลไก
ไม่ใช่ทุกการสร้างที่ต้องแก้ prompt บางผลลัพธ์ต้องการแค่ duration ที่ยาวกว่าหรือ seed ต่างกัน แต่มีรูปแบบเฉพาะที่บ่งบอกว่า prompt เองคือปัญหา
ผลลัพธ์แบน (ไม่มีความลึกเชิงพื้นที่): ทุกองค์ประกอบเสียงอยู่ที่ระยะห่างเดียวกัน ไม่มีความแตกต่างเบื้องหน้า/เบื้องหลัง แก้ไข เพิ่มภาษาเชิงพื้นที่ชัดเจนกับอย่างน้อย 2 องค์ประกอบ หนึ่งอยู่ใกล้ หนึ่งอยู่ไกลหรือกลั่นกรอง โมเดลต้องการความตัดกันเพื่อตอบสนอง
บทพูดเป็นกลไก: การส่งที่ tempoสม่ำเสมอ ไม่มีการหยุด ไม่มีการเปลี่ยน pitch ไม่มี intonation บน syllable สุดท้าย แก้ไข เขียน intonation instruction ที่เจาะจงใน prompt (ขึ้นตอนท้ายคำถาม ช้าลงใน emotional beat ลงตอนปิดประโยค) Delivery note นามธรรมเช่น natural หรือ realistic คลุมเครือเกินไปจะเปลี่ยนผลลัพธ์
Mix ล้น: องค์ประกอบเสียงมากเกินไปแย่งการมีอยู่ ไม่มีอะไรชัดเจน แก้ไข ลดเหลือ 2-3 องค์ประกอบสำคัญสุดและอธิบาย relative level ชัดเจน 3 เสียงที่วางดีกว่า 7 ที่แข่งกัน
สภาพแวดล้อมเสียงผิด: ห้องฟัง reverberant หรือ dry เกินไปสำหรับภาพ แก้ไข ตั้งชื่อ acoustic character โดยตรง dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections
| อาการ | สาเหตุน่าจะเป็น | แก้ไข |
|---|---|---|
| ไม่มีความลึกเชิงพื้นที่ | ขาดภาษา near/far | เพิ่ม distance qualifier ชัดเจนกับ 2+ องค์ประกอบ |
| บทพูดเป็นกลไก | Delivery note คลุมเครือ | เพิ่ม intonation instruction เจาะจงหนึ่งอย่าง |
| Mix ล้น | ต้นเสียงมากเกิน | ลดเหลือ 2-3 องค์ประกอบพร้อม relative level |
| สภาพแวดล้อมเสียงผิด | ไม่ได้ให้ acoustic context | ตั้งชื่อ room character ชัดเจน |
สรุปแนวทางปฏิบัติที่ดี
| ทำอะไร | ทำไม |
|---|---|
| แยกบทพูด บรรยากาศ และ SFX ในหัวก่อนเขียน | แต่ละ layer ตอบสนองต่อรูปแบบ prompt ต่างกัน |
| ตั้งชื่อ ambient element ตามโซน เบื้องหน้า กลาง เบื้องหลัง | ให้ spatial mix target แก่โมเดล ไม่ใช่แค่คำอธิบายแบน |
| เขียนบทพูดคำต่อคำพร้อม delivery note | โมเดลต้องการข้อความแม่นยำและทิศทางโทนเสียง |
| อธิบาย SFX เป็น visual event ไม่ใช่ audio event | การซิงค์กับการกระทำบนหน้าจอ model ได้ง่ายกว่า timing นามธรรม |
ใช้ no music เมื่อต้องการแค่ effects | ป้องกัน auto-scoring จากการเพิ่ม background track |
| รักษาจำนวน named element ให้น้อย | 3 เสียงที่วางดีชนะ 7 ที่แข่งกัน |
| ตั้งชื่อ acoustic environment | Room character กำหนดวิธีที่ทุกองค์ประกอบอื่นนั่ง |
เริ่มต้นบน OmniArt
Veo 3.1 ทั้ง 3 variant ได้แก่ veo-3.1-standard, veo-3.1-fast และ veo-3.1-lite ใช้ได้ใน OmniArt video workspace ด้วย credit เดียวกันและ prompt interface เดียวกัน ไม่ต้องใช้ Google account แยกหรือ API key วิธีที่เร็วที่สุดในการปรับ audio prompting คือเริ่มด้วย near/far contrast เดียวในฉากง่าย ดูสิ่งที่โมเดลสร้าง แล้วเพิ่ม layer ทีละอันจนกว่า mix จะอยู่ในจุดที่ต้องการ
สำหรับการครอบคลุม cinematography และ prompt structure ของ Veo 3.1 ในวงกว้างขึ้น ดู คู่มือ prompt และ cinematic ของ Veo 3.1 หากใช้โมเดลที่สร้างเสียงใน joint pass เดียวบน pipeline ต่างกัน รูปแบบใน คู่มือ Grok Imagine native audio ครอบคลุม prompting logic ที่คล้ายกันสำหรับ native audio system ของ xAI
พร้อมสร้างหรือยัง?
เริ่มสร้างคอนเทนต์ที่ยอดเยี่ยมด้วย AI