guideÖğreticiler ve nasıl yapılır rehberleri10 dk okuma

Veo 3.1 mekansal ses: çekime uyan sesler için en iyi uygulamalar

Veo 3.1, diyalog, ortam sesi ve SFX'i gerçek yönsel derinlikle videoyla birlikte oluşturur. OmniArt'ta her ses katmanını bilinçli şekilde nasıl prompt'layacağınızı öğrenin.

OmniArt Ekibi12 Haz 2026

Yapay zeka videolarındaki seslerin büyük çoğunluğu gerçekten var olmak yerine yerleştirilmiş gibi duyulur. Kalabalık bir pazar klibine kalabalık gürültüsü, orman klibine kuş sesi eklenir. İkisi de teknik açıdan doğrudur ama hiçbiri inandırıcı değildir; çünkü ses, karedeki her şeyin nerede olduğunu bilmez. Veo 3.1 bunu yerli mekansal sesle değiştirir: model, ne yakında ne uzakta ne gölgelenmiş ne de her şeyi geçen olduğunu bilerek videoyla birlikte ses üretir. Öznenin arkasında kapanan bir kapı, ön plandaki bir kapıdan farklı duyulur. Üç kat aşağıdaki trafik, cadde seviyesindeki trafikten daha sessiz ve daha yayılmış olur. Bu kılavuz, Veo'nun ortak ses üretiminin nasıl çalıştığını, üç ses katmanını ayrı ayrı nasıl düşüneceğinizi ve ilk denemede mekansal derinlik üreten prompt'ların nasıl yazılacağını açıklar — hemen uyarlayabileceğiniz üç çalışılmış sahne eşliğinde.

Veo 3.1 yerli sesinin çalışma şekli

Veo 3.1, ses ve videoyu tek bir ortak geçişte üretir. Sessiz bir videonun dışa aktarıldığı ve ardından bir ses modelinin onu eşleştirmeye çalıştığı iki adımlı bir pipeline'dan farklı olarak, Veo kare oluştururken aynı anda ses ortamını inşa eder. Model, ürettiği sahnenin mekansal düzenini bilir: hangi öğelerin kameraya yakın olduğunu, hangilerinin arka planda olduğunu, ortamın ne kadar yoğun olduğunu, yüzeylerin sesi emip emmeyeceğini ya da yansıtıp yansıtmayacağını.

Pratik sonuç yönlülüktür. Yakın alan öğeleri (öznenin adımları, bir yüzeye dokunan el, nefes sesi) arka plan öğelerinden (sokak gürültüsü, ortam vızıltısı, kalabalık sohbeti) farklı görünür uzaklıkta yer alır. Model, mekansal sahneyi kendisi oluşturduğundan, sonradan çıkarsamamak ve bu sesleri uygun göreli seviyelerde katmanlandırabilir.

Not

Yerli ses, OmniArt'taki üç Veo 3.1 varyantında da kullanılabilir: veo-3.1-standard, veo-3.1-fast ve veo-3.1-lite. Mekansal tutarlılık varyantlar arasında aynıdır; varyantlar arasındaki temel farklar üretim hızı ve çözünürlük tavanıdır, ses kalitesi değil.

Veo 3.1 aynı zamanda yerli 4K çıkış sunar; bu, ses prompt'lama açısından belirli bir anlam taşır: daha yüksek görsel doğruluk, karedeki daha fazla çevresel ayrıntı ve ses modelinin yanıt verebileceği daha fazla ayrıntı anlamına gelir. Yağmurla ıslanmış arnavut kaldırımının 4K yakın çekimi, aynı sahnenin yumuşak 720p render'ına kıyasla modele çok daha fazla şey sunar.

Ayrı ayrı düşünülmesi gereken üç ses katmanı

Veo 3.1'in ses üretiminden kullanışlı bir sonuç almanın en güvenilir yolu, bir prompt yazmadan önce ses talimatlarını zihinde üç katmana ayırmaktır. Her katmanın farklı özellikleri vardır ve farklı prompt kalıplarına yanıt verir.

Diyalog

Diyalog, en hassas şekilde kontrol edilebilen katmandır. Modelin açık bilgilere ihtiyacı vardır: ne söylendiği, kimin söylediği ve nasıl sunulması gerektiği. Ortam sesinden farklı olarak — modelin görsel bağlamdan çok şey çıkarabildiği — diyaloğun modelin okuyabileceği görsel bir karşılığı yoktur. Yürüyüp konuşan bir karakter, alışveriş listesi okusa da monolog verse de aynı görünür.

Repliği kelime kelime yazın, ardından bir sunum notu ekleyin. Kısa bir sunum sıfatı genellikle iki ya da üçten daha etkilidir. Güvenilir şekilde çalışan sunum notları: warm and unhurried (sıcak ve acelesi yok), flat and exhausted (düz ve bitkin), urgent, just above a whisper (acil, fısıltının hemen üstünde), soft but careful (yumuşak ama dikkatli). Ortalama sonuçlar üretme eğiliminde olan notlar: relaxed but tense veya quiet but intense gibi zıtların üst üste yığılması.

Mekansal bağlam diyalog için de önemlidir. Voice close-mic'd, room barely audible, voice slightly distant, reverberant room'dan farklı bir sonuç verir. Model, akustik ortamı tarif ettiğiniz ortam alanı düzeyiyle eşleştirir.

Ortam sesi ve çevre

Ortam sesi, Veo 3.1'in en belirgin şekilde ele aldığı katmandır. Model, ürettiği mekansal düzeni bildiğinden, bir ortamı katmanlar ve mesafeler açısından tanımlayabilir ve model bu tanımlamaya gerçekten göre hareket edebilir.

Yararlı bir zihinsel model: üç eş merkezli bölge hayal edin — yakın ön plan (kameranın kol mesafesi), orta alan (aktif sahne alanı) ve arka plan (pencereler aracılığıyla veya karenin kenarında duyulacak olan). Her bölgedeki öğeleri adlandırmak ve göreli seviyelerini belirtmek, modele mekansal bir karıştırma hedefi verir.

Bölge	Örnek öğeler	Prompt ifadesi
Ön plan	Kumaş hışırtısı, nefes, yüzeydeki eller	"close fabric rustle", "subject's quiet breathing"
Orta alan	Adımlar, konuşma, aletler, yemek pişirme sesleri	"footsteps on concrete nearby", "clink of cups on the counter"
Arka plan	Sokak trafiği, kalabalık mırıltısı, çevresel vızıltı	"traffic muffled behind glass", "distant crowd, barely audible"

Üç bölgeyi de doldurmak gerekmez. Minimalist bir iç mekan sahnesi, yalnızca bir orta alan öğesine ve ince bir oda tonuna ihtiyaç duyabilir. Ses olmaması gereken bölgeleri aşırı belirtmek karışımı dağıtır.

Ses efektleri (SFX)

SFX, belirli görsel anlara bağlı ayrı ses olaylarıdır: açılan kapı, bırakılan nesne, bildirim sesi, geçen araç. Veo, ses ve videoyu birlikte ürettiğinden, ekranda görülen işlemlere karşılık gelen SFX'ler doğal olarak senkronize olma eğilimindedir — model, bir el cam bardağa değmeden önce uzandığını bilir.

Tam isabet etmesi gereken SFX için bunları ses olayları olarak değil görsel olaylar olarak tanımlayın. "She sets the phone face-down on the desk" hem görsel eylemi hem de ürettiği sesi tetikler; "a clunk as the phone hits the desk" sesi soyut biçimde tanımlar ve model için senkronize etmesi daha zordur.

Ekrandaki bir eyleme bağlı olmayan bir SFX ihtiyacınız olduğunda — kare dışındaki bir ses, bir çevresel noktalama — bir diyalog işareti gibi ele alın: açıkça adlandırın ve mekansal bağlam verin. "A car alarm starts briefly in the distance, off-frame right", "random street noise includes a car alarm"'dan çok daha kesindir.

Üç çalışılmış sahne

Bu örnekler, üç farklı ses senaryosuna tam prompt kalıbının uygulanışını gösterir. Her biri farklı bir temel ses zorluğunu gösterir.

Sahne 1: Sokakta yakın/uzak mekansal katmanlama

Kısa: Özne, ticari bir sokak boyunca bir dükkan girişine doğru yürür. Sesin yakın öğeler (öznenin adımları, ortam nefesi) ile çevresi (trafik, bir dükkan kapısı) arasındaki mekansal farkı göstermesi gerekir.

Prompt:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

Beklentiler: Adımlar yakın alanda, arka plan trafiğinden net şekilde ayrı olmalıdır. Kapıdaki geçiş — dışarıdan gürültü azaltılmış içeriye — prompt'ın yönlendiği mekansal olaydır ve Veo'nun ortak üretimi, modelin o anın görsel engelleme düzenlemesini bildiği anlamına gelir.

Ayar kolları: Trafik adımlara oranla çok yüksekse traffic well back, not competing with footsteps ekleyin. Kapı geçişi çok ani ise gradual acoustic shift as the door opens ekleyin.

Sahne 2: Yalnızca ortam sesiyle taşınan diyalogsuz atmosfer çekimi

Kısa: Alacakaranlıkta geniş bir iç mekan çekimi — diyalog yok, belirgin bir eylem yok. Ses, sahnenin duygusal kayıt defterini tamamen çevre katmanları aracılığıyla taşımalıdır.

Prompt:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

Beklentiler: Olaylar arasındaki duraklamaların olayların kendisi kadar duyulabildiği katmanlı bir çevre karışımı. Model, quiet enough to hear the silence between sounds'ı bir karışım seviyesi talimatı olarak ele almalı ve oda tonunun algılanabilir olduğu kadar tüm öğeleri düşük tutmalıdır.

Ayar kolları: quiet enough to hear the silence ifadesi each element appearing only briefly, not constant eklenerek güçlendirilebilir. Atmosferi bozmadan anlatısal bir noktalama eklemek için a phone buzzing once on a surface, off-frame ekleyin.

İpucu

Diyalogsuz atmosfer sahneleri, Veo 3.1'in mekansal sesinin düz ses modellerine karşı avantajını en açık biçimde gösterdiği yerdir. Sonuç katmanlı bir çevre yerine tek bir döngüsel arka plan parçası gibi duyuluyorsa, prompt muhtemelen yetersiz belirtilmiştir — açık mekansal konumlandırmayla ikinci veya üçüncü bir adlandırılmış öğe ekleyin.

Sahne 3: Diyalogda cümle düzeyinde tonlama

Kısa: Bir karakter kameraya tek bir soru yöneltir. Sunumun doğal cümle düzeyinde tonlamaya ihtiyacı var — özellikle sorunun sonundaki duyulabilir yükselme — mekanik düz bir okuma değil.

Prompt:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

Beklentiler: rising slightly on 'find out' ve genuinely confused rather than angry sunum notu, hem ses dalgasını hem de konuşmanın perde dağılımını şekillendirmelidir. Oda tonu talimatları (no reverb), akustik ortamı belirler ve diyalog farklı bir alanda kaydedilmiş gibi duyulmasın.

Ayar kolları: Sunum çok düzse quiet'i controlled but emotionally present ile değiştirin. Cümle tonlaması ortaya çıkmıyorsa sunum notunu duygusal nottan ayırın: önce duyguyu belirtin, ardından belirli tonlama talimatını yazın.

Yeniden oluşturmadan önce: düz veya mekanik sonucu okumak

Her üretim bir prompt revizyonu gerektirmez. Bazı sonuçlar yalnızca daha uzun bir süre veya farklı bir seed'e ihtiyaç duyar. Ancak prompt'ın kendisinin sorun olduğunu gösteren belirli kalıplar vardır:

Düz sonuç (mekansal derinlik yok): Tüm ses öğeleri ön plan/arka plan ayrımı olmaksızın aynı görünür mesafede. Düzeltme: en az iki öğeye açık mekansal dil ekleyin — biri yakın, biri uzak veya gölgelenmiş olarak işaretlenmiş. Modelin harekete geçmesi için bir kontrasta ihtiyacı var.

Mekanik diyalog: Sunum eşit tempoda, duraklama yok, perde değişimi yok, son hecede tonlama yok. Düzeltme: prompt'a bir somut tonlama talimatı yazın (soru sonunda yükselme, duygusal bir beatta yavaşlama, bir cümle kapanışında alçalma). natural veya realistic gibi soyut sunum notları sonucu değiştirmek için çok belirsizdir.

Aşırı dolu karışım: Çok fazla ses öğesi varlık için yarışıyor, hiçbiri net biçimde oturmuyor. Düzeltme: en önemli iki veya üç öğeye indirin ve göreli seviyelerini açıkça tanımlayın. İyi yerleştirilmiş üç ses, rekabet eden yediden daha iyidir.

Yanlış akustik ortam: Oda görsel için çok yankılı veya çok kuru duyuluyor. Düzeltme: akustik karakteri doğrudan adlandırın — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

Belirti	Olası neden	Düzeltme
Mekansal derinlik yok	Yakın/uzak dili eksik	2+ öğeye açık mesafe niteleyiciler ekleyin
Mekanik diyalog	Belirsiz sunum notları	Belirli bir tonlama talimatı ekleyin
Aşırı dolu karışım	Çok fazla kaynak	Göreli seviyelerle 2–3 öğeye indirin
Yanlış akustik ortam	Akustik bağlam verilmemiş	Oda karakterini açıkça adlandırın

En iyi uygulamalar özeti

Ne yapmalı	Neden
Yazmadan önce zihinde diyalogu, ortam sesini ve SFX'i ayırın	Her katman farklı prompt kalıplarına yanıt verir
Ortam öğelerini bölgeye göre adlandırın — ön, orta, arka	Modele düz bir açıklama değil mekansal karışım hedefi verir
Diyalog repliklerini sunum notu ile kelime kelime yazın	Model tam metne ve ton yönüne ihtiyaç duyar
SFX'i ses olayları değil görsel olaylar olarak tanımlayın	Ekrandaki eylemle senkronizasyon soyut zamanlama modellemesinden daha kolaydır
Yalnızca efekt istediğinizde `no music` kullanın	Otomatik skorlamayı arka plan parçası eklemekten alıkoyar
Adlandırılan öğe sayısını düşük tutun	İyi yerleştirilmiş üç ses, rekabet eden yediyi geçer
Akustik ortamı adlandırın	Oda karakteri diğer tüm öğelerin nasıl oturduğunu belirler

OmniArt'ta başlayın

Üç Veo 3.1 varyantının tamamı — veo-3.1-standard, veo-3.1-fast ve veo-3.1-lite — OmniArt video çalışma alanında aynı kredi bakiyesi ve prompt arayüzüyle kullanılabilir; ayrı bir Google hesabı veya API anahtarı gerekmez. Ses prompt'lamanızı kalibre etmenin en hızlı yolu, basit bir sahnede tek bir yakın/uzak kontrast ile başlamak, modelin ne ürettiğini görmek ve ardından karışım istediğiniz yere gelene kadar birer birer katman eklemektir.

Veo 3.1'in sinematografi ve prompt yapısının daha kapsamlı ele alınması için Veo 3.1 prompt ve sinematik kılavuzu'na bakın. Farklı bir pipeline'da ses tek bir ortak geçişte üreten bir modelle çalışıyorsanız, Grok Imagine native audio kılavuzu'ndaki kalıplar xAI'nin yerli ses sistemi için benzer prompt mantığını kapsar.

OmniArt'ta üretmeye başlayın

Oluşturmaya hazır mısınız?

AI ile harika içerikler üretmeye başlayın

Ücretsiz başla