guideTutorial dan panduan cara11 menit baca

Veo 3.1 audio spasial: praktik terbaik untuk suara yang sesuai dengan shot

Veo 3.1 menghasilkan dialog, ambience, dan SFX bersama video — dengan kedalaman arah yang nyata. Cara mem-prompt setiap lapisan audio secara sengaja agar suara benar-benar sesuai dengan shot di OmniArt.

Tim OmniArt12 Jun 2026

Sebagian besar audio pada video AI terdengar seperti diletakkan, bukan hadir secara nyata. Klip pasar yang ramai mendapat suara keramaian; klip hutan mendapat kicau burung. Keduanya benar secara teknis namun tidak meyakinkan, karena suara tidak tahu di mana setiap objek berada dalam frame. Veo 3.1 mengubah ini dengan audio spasial native: model menghasilkan suara bersamaan dengan video, menyadari apa yang dekat, apa yang jauh, apa yang teredam, dan apa yang menembus. Pintu yang menutup di belakang subjek berbeda bunyinya dengan pintu yang menutup di latar depan. Lalu lintas tiga lantai di bawah lebih tenang dan lebih menyebar dibandingkan lalu lintas di level jalan. Panduan ini menjelaskan cara kerja pembuatan audio bersama Veo, cara berpikir tentang tiga lapisan audio secara terpisah, dan cara menulis prompt yang menghasilkan kedalaman spasial sejak pertama kali dijalankan — dengan tiga adegan yang bisa Anda adaptasi segera.

Cara kerja audio native Veo 3.1

Veo 3.1 menghasilkan audio dan video dalam satu proses terintegrasi. Berbeda dari pipeline dua langkah — di mana video tanpa suara diekspor dan model audio kemudian mencoba menyesuaikannya — Veo membangun soundscape bersamaan dengan membangun frame. Model mengetahui tata letak spasial adegan yang dihasilkannya: elemen mana yang dekat dengan kamera, mana yang di latar belakang, seberapa padat lingkungannya, apakah permukaan akan menyerap atau memantulkan suara.

Efek praktisnya adalah direksionalitas. Elemen near-field (langkah kaki subjek, tangan menyentuh permukaan, pernapasan) berada pada jarak tampak yang berbeda dari elemen latar belakang (kebisingan jalanan, dengungan lingkungan, obrolan keramaian). Model dapat melapisi suara-suara ini pada level relatif yang tepat karena sedang membangun adegan spasial, bukan menyimpulkannya setelah fakta.

Catatan

Audio native tersedia di ketiga varian Veo 3.1 di OmniArt: veo-3.1-standard, veo-3.1-fast, dan veo-3.1-lite. Koherensi spasial konsisten di semua varian; perbedaan utama antar varian adalah kecepatan pembuatan dan batas resolusi, bukan kualitas audio.

Veo 3.1 juga menghadirkan output native 4K, yang penting untuk prompting audio dalam satu hal spesifik: fidelitas visual yang lebih tinggi berarti lebih banyak detail lingkungan dalam frame — dan lebih banyak detail yang dapat direspons oleh model audio. Close-up 4K dari jalan berbatu yang basah hujan memberikan lebih banyak bahan kerja bagi model dibandingkan render 720p yang lembut dari adegan yang sama.

Tiga lapisan audio yang perlu dipikirkan secara terpisah

Cara paling andal untuk mendapatkan hasil yang berguna dari pembuatan audio Veo 3.1 adalah dengan memisahkan instruksi audio secara mental menjadi tiga lapisan sebelum menulis satu kata pun dari prompt. Setiap lapisan memiliki karakteristik berbeda dan merespons pola prompt yang berbeda.

Dialog

Dialog adalah lapisan yang paling presisi dikontrol. Model memerlukan informasi eksplisit: apa yang dikatakan, siapa yang mengatakannya, dan bagaimana cara menyampaikannya. Berbeda dari suara ambient — di mana model dapat menyimpulkan banyak hal dari konteks visual — dialog tidak memiliki korelat visual yang dapat dibaca model. Seorang karakter yang berjalan sambil berbicara terlihat sama apakah mereka menyebutkan daftar belanjaan atau menyampaikan monolog.

Tulis kalimat kata per kata, lalu ikuti dengan catatan penyampaian. Satu kata sifat penyampaian yang ringkas biasanya lebih efektif daripada dua atau tiga. Catatan penyampaian yang bekerja dengan andal: warm and unhurried (hangat dan tidak terburu-buru), flat and exhausted (datar dan kelelahan), urgent, just above a whisper (mendesak, sedikit di atas bisikan), soft but careful (lembut tapi hati-hati). Catatan yang cenderung menghasilkan hasil rata-rata: menumpuk hal berlawanan seperti relaxed but tense atau quiet but intense.

Konteks spasial juga penting untuk dialog. Voice close-mic'd, room barely audible menghasilkan hasil yang berbeda dari voice slightly distant, reverberant room. Model akan menyesuaikan lingkungan akustik dengan tingkat ruang ambient yang Anda gambarkan.

Ambience dan lingkungan

Ambience adalah lapisan yang paling khas ditangani Veo 3.1. Karena model mengetahui tata letak spasial yang dihasilkannya, Anda dapat menggambarkan lingkungan dalam istilah lapisan dan jarak, dan model benar-benar dapat bertindak berdasarkan deskripsi tersebut.

Model mental yang berguna: bayangkan tiga zona konsentris — latar depan langsung (dalam jangkauan kamera), bidang tengah (ruang adegan aktif), dan latar belakang (yang akan terdengar melalui jendela atau di tepi frame). Menamai elemen di setiap zona dan menunjukkan level relatifnya memberi model target mix spasial.

Zona	Contoh elemen	Frasa dalam prompt
Latar depan	Gemerisik kain, napas, tangan di atas permukaan	"close fabric rustle", "subject's quiet breathing"
Bidang tengah	Langkah kaki, percakapan, alat, suara memasak	"footsteps on concrete nearby", "clink of cups on the counter"
Latar belakang	Lalu lintas jalanan, bisikan keramaian, dengungan lingkungan	"traffic muffled behind glass", "distant crowd, barely audible"

Anda tidak perlu mengisi ketiga zona. Adegan interior minimalis mungkin hanya memerlukan satu elemen bidang tengah dan nada ruangan yang halus. Menentukan terlalu rinci zona yang seharusnya tidak bersuara akan mengotori mix.

Efek suara (SFX)

SFX adalah peristiwa audio diskret yang terikat pada momen visual tertentu: pintu terbuka, objek diletakkan, suara notifikasi, kendaraan yang lewat. Karena Veo menghasilkan audio bersama video, SFX yang sesuai dengan aksi yang terlihat di layar cenderung sinkron secara alami — model mengetahui bahwa tangan sedang meraih gelas sebelum membuat kontak.

Untuk SFX yang perlu tepat sasaran, gambarkan sebagai peristiwa visual, bukan peristiwa audio. "She sets the phone face-down on the desk" mendorong aksi visual sekaligus suara yang dihasilkannya; "a clunk as the phone hits the desk" menggambarkan suara secara abstrak dan lebih sulit disinkronkan oleh model.

Saat Anda membutuhkan SFX yang tidak terikat pada aksi di layar — suara dari luar frame, tanda baca lingkungan — perlakukan seperti cue dialog: namai secara eksplisit dan beri konteks spasial. "A car alarm starts briefly in the distance, off-frame right" lebih presisi dari "random street noise includes a car alarm."

Tiga adegan yang dikerjakan

Contoh-contoh ini menunjukkan pola prompt lengkap yang diterapkan pada tiga skenario audio berbeda. Setiap adegan mendemonstrasikan tantangan audio utama yang berbeda.

Adegan 1: Lapisan spasial dekat/jauh di jalan

Konteks: Seorang subjek berjalan di sepanjang jalan komersial menuju pintu masuk toko. Audio perlu menunjukkan perbedaan spasial antara elemen dekat (langkah kaki subjek, pernapasan ambient) dan lingkungan sekitar (lalu lintas, pintu toko).

Prompt:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

Yang diharapkan: Langkah kaki harus berada di near-field, terpisah jelas dari lalu lintas latar belakang. Transisi di pintu — dari luar ke interior yang teredam — adalah peristiwa spasial yang diarahkan oleh prompt, dan pembuatan terintegrasi Veo berarti model mengetahui blocking visual dari momen itu.

Tuas penyesuaian: Jika lalu lintas terlalu keras dibanding langkah kaki, tambahkan traffic well back, not competing with footsteps. Jika transisi pintu terlalu tiba-tiba, tambahkan gradual acoustic shift as the door opens.

Adegan 2: Mood shot tanpa dialog yang dibawa oleh ambience saja

Konteks: Wide shot interior di senja hari — tanpa dialog, tanpa aksi nyata. Audio harus membawa nuansa emosional adegan sepenuhnya melalui lapisan lingkungan.

Prompt:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

Yang diharapkan: Mix lingkungan berlapis di mana jeda antara peristiwa sama terdengarnya dengan peristiwa itu sendiri. Model harus memperlakukan quiet enough to hear the silence between sounds sebagai instruksi level mix — menjaga semua elemen cukup rendah sehingga nada ruangan dapat dirasakan.

Tuas penyesuaian: Frasa quiet enough to hear the silence dapat diperkuat dengan menambahkan each element appearing only briefly, not constant. Tambahkan a phone buzzing once on a surface, off-frame untuk memperkenalkan tanda baca naratif tanpa merusak suasana.

Tips

Adegan ambience tanpa dialog adalah tempat audio spasial Veo 3.1 paling jelas menunjukkan keunggulannya dibandingkan model audio datar. Jika hasilnya terdengar seperti satu lagu latar berulang alih-alih lingkungan berlapis, prompt kemungkinan kurang spesifik — tambahkan elemen kedua atau ketiga yang dinamai dengan penempatan spasial eksplisit.

Adegan 3: Intonasi tingkat kalimat pada dialog

Konteks: Seorang karakter menyampaikan satu pertanyaan ke kamera. Penyampaian memerlukan intonasi alami tingkat kalimat — khususnya, naiknya suara yang terdengar di akhir pertanyaan — bukan pembacaan yang mekanis dan datar.

Prompt:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

Yang diharapkan: Catatan penyampaian rising slightly on 'find out' dan genuinely confused rather than angry harus membentuk bentuk gelombang audio sekaligus kontur nada penyampaian. Instruksi nada ruangan (no reverb) menetapkan lingkungan akustik agar dialog tidak terdengar seperti direkam di ruang yang berbeda.

Tuas penyesuaian: Jika penyampaian terlalu datar, ganti quiet dengan controlled but emotionally present. Jika intonasi kalimat tidak muncul, pisahkan catatan penyampaian dari catatan emosional: nyatakan emosi dulu, lalu instruksi intonasi spesifik.

Sebelum mengulang: membaca hasil yang datar atau mekanis

Tidak setiap hasil memerlukan revisi prompt. Beberapa hasil hanya membutuhkan durasi lebih panjang atau seed yang berbeda. Namun ada pola tertentu yang menunjukkan bahwa prompt itu sendiri yang bermasalah:

Hasil datar (tanpa kedalaman spasial): Semua elemen audio berada pada jarak tampak yang sama tanpa perbedaan latar depan/latar belakang. Perbaikan: tambahkan bahasa spasial eksplisit ke setidaknya dua elemen — satu ditandai sebagai dekat, satu sebagai jauh atau teredam. Model membutuhkan kontras untuk bertindak.

Dialog mekanis: Penyampaian berirama merata tanpa jeda, tanpa variasi nada, tanpa intonasi pada suku kata terakhir. Perbaikan: tulis satu instruksi intonasi konkret dalam prompt (naik di akhir pertanyaan, melambat pada ketukan emosional, turun di akhir pernyataan). Catatan penyampaian abstrak seperti natural atau realistic terlalu samar untuk mengubah hasil.

Mix yang terlalu penuh: Terlalu banyak elemen audio bersaing untuk hadir, tidak ada yang duduk dengan jelas. Perbaikan: kurangi menjadi dua atau tiga elemen paling penting dan gambarkan level relatifnya secara eksplisit. Lebih baik memiliki tiga suara yang ditempatkan dengan baik daripada tujuh yang bersaing.

Lingkungan akustik yang salah: Ruangan terdengar terlalu bergema atau terlalu kering untuk visualnya. Perbaikan: namai karakter akustik secara langsung — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

Gejala	Kemungkinan penyebab	Perbaikan
Tanpa kedalaman spasial	Bahasa dekat/jauh tidak ada	Tambahkan kualifikator jarak eksplisit ke 2+ elemen
Dialog mekanis	Catatan penyampaian samar	Tambahkan satu instruksi intonasi spesifik
Mix terlalu penuh	Terlalu banyak sumber	Kurangi menjadi 2–3 elemen dengan level relatif
Lingkungan akustik salah	Tidak ada konteks akustik	Namai karakter ruangan secara eksplisit

Ringkasan praktik terbaik

Yang harus dilakukan	Mengapa
Pisahkan dialog, ambience, dan SFX secara mental sebelum menulis	Setiap lapisan merespons pola prompt yang berbeda
Namai elemen ambient berdasarkan zona — latar depan, bidang tengah, latar belakang	Memberi model target mix spasial, bukan deskripsi datar
Tulis baris dialog kata per kata dengan catatan penyampaian	Model membutuhkan teks yang tepat dan arah tonal
Gambarkan SFX sebagai peristiwa visual, bukan peristiwa audio	Sinkronisasi dengan aksi di layar lebih mudah dimodelkan daripada waktu abstrak
Gunakan `no music` saat Anda hanya menginginkan efek	Mencegah auto-scoring menambahkan lagu latar
Jaga jumlah elemen yang dinamai tetap rendah	Tiga suara yang ditempatkan dengan baik mengalahkan tujuh yang bersaing
Namai lingkungan akustik	Karakter ruangan menentukan bagaimana semua elemen lain duduk

Mulai di OmniArt

Ketiga varian Veo 3.1 — veo-3.1-standard, veo-3.1-fast, dan veo-3.1-lite — tersedia di workspace video OmniArt dengan saldo kredit dan antarmuka prompt yang sama, tanpa akun Google terpisah atau kunci API yang diperlukan. Cara tercepat untuk mengkalibrasi prompting audio Anda adalah memulai dengan satu kontras dekat/jauh dalam adegan sederhana, melihat apa yang dihasilkan model, lalu menambahkan lapisan satu per satu hingga mix ada di tempat yang Anda inginkan.

Untuk pembahasan yang lebih luas tentang sinematografi dan struktur prompt Veo 3.1, lihat panduan prompt dan sinematik Veo 3.1. Jika Anda bekerja dengan model yang menghasilkan audio dalam satu proses terintegrasi pada pipeline berbeda, pola dalam panduan audio native Grok Imagine mencakup logika prompting serupa untuk sistem audio native xAI.

Mulai membuat di OmniArt

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis