Veo 3.1 mekansal ses: çekime uyan sesler için en iyi uygulamalar
Veo 3.1, diyalog, ortam sesi ve SFX'i gerçek yönsel derinlikle videoyla birlikte oluşturur. OmniArt'ta her ses katmanını bilinçli şekilde nasıl prompt'layacağınızı öğrenin.

Yapay zeka videolarındaki seslerin büyük çoğunluğu gerçekten var olmak yerine yerleştirilmiş gibi duyulur. Kalabalık bir pazar klibine kalabalık gürültüsü, orman klibine kuş sesi eklenir. İkisi de teknik açıdan doğrudur ama hiçbiri inandırıcı değildir; çünkü ses, karedeki her şeyin nerede olduğunu bilmez. Veo 3.1 bunu yerli mekansal sesle değiştirir: model, ne yakında ne uzakta ne gölgelenmiş ne de her şeyi geçen olduğunu bilerek videoyla birlikte ses üretir. Öznenin arkasında kapanan bir kapı, ön plandaki bir kapıdan farklı duyulur. Üç kat aşağıdaki trafik, cadde seviyesindeki trafikten daha sessiz ve daha yayılmış olur. Bu kılavuz, Veo'nun ortak ses üretiminin nasıl çalıştığını, üç ses katmanını ayrı ayrı nasıl düşüneceğinizi ve ilk denemede mekansal derinlik üreten prompt'ların nasıl yazılacağını açıklar — hemen uyarlayabileceğiniz üç çalışılmış sahne eşliğinde.
Veo 3.1 yerli sesinin çalışma şekli
Veo 3.1, ses ve videoyu tek bir ortak geçişte üretir. Sessiz bir videonun dışa aktarıldığı ve ardından bir ses modelinin onu eşleştirmeye çalıştığı iki adımlı bir pipeline'dan farklı olarak, Veo kare oluştururken aynı anda ses ortamını inşa eder. Model, ürettiği sahnenin mekansal düzenini bilir: hangi öğelerin kameraya yakın olduğunu, hangilerinin arka planda olduğunu, ortamın ne kadar yoğun olduğunu, yüzeylerin sesi emip emmeyeceğini ya da yansıtıp yansıtmayacağını.
Pratik sonuç yönlülüktür. Yakın alan öğeleri (öznenin adımları, bir yüzeye dokunan el, nefes sesi) arka plan öğelerinden (sokak gürültüsü, ortam vızıltısı, kalabalık sohbeti) farklı görünür uzaklıkta yer alır. Model, mekansal sahneyi kendisi oluşturduğundan, sonradan çıkarsamamak ve bu sesleri uygun göreli seviyelerde katmanlandırabilir.
Not
Veo 3.1 aynı zamanda yerli 4K çıkış sunar; bu, ses prompt'lama açısından belirli bir anlam taşır: daha yüksek görsel doğruluk, karedeki daha fazla çevresel ayrıntı ve ses modelinin yanıt verebileceği daha fazla ayrıntı anlamına gelir. Yağmurla ıslanmış arnavut kaldırımının 4K yakın çekimi, aynı sahnenin yumuşak 720p render'ına kıyasla modele çok daha fazla şey sunar.
Ayrı ayrı düşünülmesi gereken üç ses katmanı
Veo 3.1'in ses üretiminden kullanışlı bir sonuç almanın en güvenilir yolu, bir prompt yazmadan önce ses talimatlarını zihinde üç katmana ayırmaktır. Her katmanın farklı özellikleri vardır ve farklı prompt kalıplarına yanıt verir.
Diyalog
Diyalog, en hassas şekilde kontrol edilebilen katmandır. Modelin açık bilgilere ihtiyacı vardır: ne söylendiği, kimin söylediği ve nasıl sunulması gerektiği. Ortam sesinden farklı olarak — modelin görsel bağlamdan çok şey çıkarabildiği — diyaloğun modelin okuyabileceği görsel bir karşılığı yoktur. Yürüyüp konuşan bir karakter, alışveriş listesi okusa da monolog verse de aynı görünür.
Repliği kelime kelime yazın, ardından bir sunum notu ekleyin. Kısa bir sunum sıfatı genellikle iki ya da üçten daha etkilidir. Güvenilir şekilde çalışan sunum notları: warm and unhurried (sıcak ve acelesi yok), flat and exhausted (düz ve bitkin), urgent, just above a whisper (acil, fısıltının hemen üstünde), soft but careful (yumuşak ama dikkatli). Ortalama sonuçlar üretme eğiliminde olan notlar: relaxed but tense veya quiet but intense gibi zıtların üst üste yığılması.
Mekansal bağlam diyalog için de önemlidir. Voice close-mic'd, room barely audible, voice slightly distant, reverberant room'dan farklı bir sonuç verir. Model, akustik ortamı tarif ettiğiniz ortam alanı düzeyiyle eşleştirir.
Ortam sesi ve çevre
Ortam sesi, Veo 3.1'in en belirgin şekilde ele aldığı katmandır. Model, ürettiği mekansal düzeni bildiğinden, bir ortamı katmanlar ve mesafeler açısından tanımlayabilir ve model bu tanımlamaya gerçekten göre hareket edebilir.
Yararlı bir zihinsel model: üç eş merkezli bölge hayal edin — yakın ön plan (kameranın kol mesafesi), orta alan (aktif sahne alanı) ve arka plan (pencereler aracılığıyla veya karenin kenarında duyulacak olan). Her bölgedeki öğeleri adlandırmak ve göreli seviyelerini belirtmek, modele mekansal bir karıştırma hedefi verir.
| Bölge | Örnek öğeler | Prompt ifadesi |
|---|---|---|
| Ön plan | Kumaş hışırtısı, nefes, yüzeydeki eller | "close fabric rustle", "subject's quiet breathing" |
| Orta alan | Adımlar, konuşma, aletler, yemek pişirme sesleri | "footsteps on concrete nearby", "clink of cups on the counter" |
| Arka plan | Sokak trafiği, kalabalık mırıltısı, çevresel vızıltı | "traffic muffled behind glass", "distant crowd, barely audible" |
Üç bölgeyi de doldurmak gerekmez. Minimalist bir iç mekan sahnesi, yalnızca bir orta alan öğesine ve ince bir oda tonuna ihtiyaç duyabilir. Ses olmaması gereken bölgeleri aşırı belirtmek karışımı dağıtır.
Ses efektleri (SFX)
SFX, belirli görsel anlara bağlı ayrı ses olaylarıdır: açılan kapı, bırakılan nesne, bildirim sesi, geçen araç. Veo, ses ve videoyu birlikte ürettiğinden, ekranda görülen işlemlere karşılık gelen SFX'ler doğal olarak senkronize olma eğilimindedir — model, bir el cam bardağa değmeden önce uzandığını bilir.
Tam isabet etmesi gereken SFX için bunları ses olayları olarak değil görsel olaylar olarak tanımlayın. "She sets the phone face-down on the desk" hem görsel eylemi hem de ürettiği sesi tetikler; "a clunk as the phone hits the desk" sesi soyut biçimde tanımlar ve model için senkronize etmesi daha zordur.
Ekrandaki bir eyleme bağlı olmayan bir SFX ihtiyacınız olduğunda — kare dışındaki bir ses, bir çevresel noktalama — bir diyalog işareti gibi ele alın: açıkça adlandırın ve mekansal bağlam verin. "A car alarm starts briefly in the distance, off-frame right", "random street noise includes a car alarm"'dan çok daha kesindir.
Üç çalışılmış sahne
Bu örnekler, üç farklı ses senaryosuna tam prompt kalıbının uygulanışını gösterir. Her biri farklı bir temel ses zorluğunu gösterir.
Sahne 1: Sokakta yakın/uzak mekansal katmanlama
Kısa: Özne, ticari bir sokak boyunca bir dükkan girişine doğru yürür. Sesin yakın öğeler (öznenin adımları, ortam nefesi) ile çevresi (trafik, bir dükkan kapısı) arasındaki mekansal farkı göstermesi gerekir.
Prompt:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
Beklentiler: Adımlar yakın alanda, arka plan trafiğinden net şekilde ayrı olmalıdır. Kapıdaki geçiş — dışarıdan gürültü azaltılmış içeriye — prompt'ın yönlendiği mekansal olaydır ve Veo'nun ortak üretimi, modelin o anın görsel engelleme düzenlemesini bildiği anlamına gelir.
Ayar kolları: Trafik adımlara oranla çok yüksekse traffic well back, not competing with footsteps ekleyin. Kapı geçişi çok ani ise gradual acoustic shift as the door opens ekleyin.
Sahne 2: Yalnızca ortam sesiyle taşınan diyalogsuz atmosfer çekimi
Kısa: Alacakaranlıkta geniş bir iç mekan çekimi — diyalog yok, belirgin bir eylem yok. Ses, sahnenin duygusal kayıt defterini tamamen çevre katmanları aracılığıyla taşımalıdır.
Prompt:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
Beklentiler: Olaylar arasındaki duraklamaların olayların kendisi kadar duyulabildiği katmanlı bir çevre karışımı. Model, quiet enough to hear the silence between sounds'ı bir karışım seviyesi talimatı olarak ele almalı ve oda tonunun algılanabilir olduğu kadar tüm öğeleri düşük tutmalıdır.
Ayar kolları: quiet enough to hear the silence ifadesi each element appearing only briefly, not constant eklenerek güçlendirilebilir. Atmosferi bozmadan anlatısal bir noktalama eklemek için a phone buzzing once on a surface, off-frame ekleyin.
İpucu
Sahne 3: Diyalogda cümle düzeyinde tonlama
Kısa: Bir karakter kameraya tek bir soru yöneltir. Sunumun doğal cümle düzeyinde tonlamaya ihtiyacı var — özellikle sorunun sonundaki duyulabilir yükselme — mekanik düz bir okuma değil.
Prompt:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
Beklentiler: rising slightly on 'find out' ve genuinely confused rather than angry sunum notu, hem ses dalgasını hem de konuşmanın perde dağılımını şekillendirmelidir. Oda tonu talimatları (no reverb), akustik ortamı belirler ve diyalog farklı bir alanda kaydedilmiş gibi duyulmasın.
Ayar kolları: Sunum çok düzse quiet'i controlled but emotionally present ile değiştirin. Cümle tonlaması ortaya çıkmıyorsa sunum notunu duygusal nottan ayırın: önce duyguyu belirtin, ardından belirli tonlama talimatını yazın.
Yeniden oluşturmadan önce: düz veya mekanik sonucu okumak
Her üretim bir prompt revizyonu gerektirmez. Bazı sonuçlar yalnızca daha uzun bir süre veya farklı bir seed'e ihtiyaç duyar. Ancak prompt'ın kendisinin sorun olduğunu gösteren belirli kalıplar vardır:
Düz sonuç (mekansal derinlik yok): Tüm ses öğeleri ön plan/arka plan ayrımı olmaksızın aynı görünür mesafede. Düzeltme: en az iki öğeye açık mekansal dil ekleyin — biri yakın, biri uzak veya gölgelenmiş olarak işaretlenmiş. Modelin harekete geçmesi için bir kontrasta ihtiyacı var.
Mekanik diyalog: Sunum eşit tempoda, duraklama yok, perde değişimi yok, son hecede tonlama yok. Düzeltme: prompt'a bir somut tonlama talimatı yazın (soru sonunda yükselme, duygusal bir beatta yavaşlama, bir cümle kapanışında alçalma). natural veya realistic gibi soyut sunum notları sonucu değiştirmek için çok belirsizdir.
Aşırı dolu karışım: Çok fazla ses öğesi varlık için yarışıyor, hiçbiri net biçimde oturmuyor. Düzeltme: en önemli iki veya üç öğeye indirin ve göreli seviyelerini açıkça tanımlayın. İyi yerleştirilmiş üç ses, rekabet eden yediden daha iyidir.
Yanlış akustik ortam: Oda görsel için çok yankılı veya çok kuru duyuluyor. Düzeltme: akustik karakteri doğrudan adlandırın — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.
| Belirti | Olası neden | Düzeltme |
|---|---|---|
| Mekansal derinlik yok | Yakın/uzak dili eksik | 2+ öğeye açık mesafe niteleyiciler ekleyin |
| Mekanik diyalog | Belirsiz sunum notları | Belirli bir tonlama talimatı ekleyin |
| Aşırı dolu karışım | Çok fazla kaynak | Göreli seviyelerle 2–3 öğeye indirin |
| Yanlış akustik ortam | Akustik bağlam verilmemiş | Oda karakterini açıkça adlandırın |
En iyi uygulamalar özeti
| Ne yapmalı | Neden |
|---|---|
| Yazmadan önce zihinde diyalogu, ortam sesini ve SFX'i ayırın | Her katman farklı prompt kalıplarına yanıt verir |
| Ortam öğelerini bölgeye göre adlandırın — ön, orta, arka | Modele düz bir açıklama değil mekansal karışım hedefi verir |
| Diyalog repliklerini sunum notu ile kelime kelime yazın | Model tam metne ve ton yönüne ihtiyaç duyar |
| SFX'i ses olayları değil görsel olaylar olarak tanımlayın | Ekrandaki eylemle senkronizasyon soyut zamanlama modellemesinden daha kolaydır |
Yalnızca efekt istediğinizde no music kullanın | Otomatik skorlamayı arka plan parçası eklemekten alıkoyar |
| Adlandırılan öğe sayısını düşük tutun | İyi yerleştirilmiş üç ses, rekabet eden yediyi geçer |
| Akustik ortamı adlandırın | Oda karakteri diğer tüm öğelerin nasıl oturduğunu belirler |
OmniArt'ta başlayın
Üç Veo 3.1 varyantının tamamı — veo-3.1-standard, veo-3.1-fast ve veo-3.1-lite — OmniArt video çalışma alanında aynı kredi bakiyesi ve prompt arayüzüyle kullanılabilir; ayrı bir Google hesabı veya API anahtarı gerekmez. Ses prompt'lamanızı kalibre etmenin en hızlı yolu, basit bir sahnede tek bir yakın/uzak kontrast ile başlamak, modelin ne ürettiğini görmek ve ardından karışım istediğiniz yere gelene kadar birer birer katman eklemektir.
Veo 3.1'in sinematografi ve prompt yapısının daha kapsamlı ele alınması için Veo 3.1 prompt ve sinematik kılavuzu'na bakın. Farklı bir pipeline'da ses tek bir ortak geçişte üreten bir modelle çalışıyorsanız, Grok Imagine native audio kılavuzu'ndaki kalıplar xAI'nin yerli ses sistemi için benzer prompt mantığını kapsar.
Oluşturmaya hazır mısınız?
AI ile harika içerikler üretmeye başlayın