guideTutorials und Anleitungen11 Min. Lesezeit

Veo 3.1 Raumklang: Best Practices für Sound, der wirklich zum Shot passt

Veo 3.1 generiert Dialog, Atmosphäre und SFX gemeinsam mit dem Video — mit echter direktionaler Tiefe. Wie Sie jede Audio-Ebene gezielt prompten, damit der Sound wirklich zum Shot passt, direkt in OmniArt.

OmniArt-Team12. Juni 2026

Der Ton in den meisten KI-generierten Videos klingt platziert statt präsent. Ein Clip von einem belebten Markt bekommt Menschenmenge-Lärm; ein Waldclip bekommt Vogelgesang. Beides ist technisch korrekt und dennoch nicht überzeugend, weil der Sound nicht weiß, wo sich etwas im Bild befindet. Veo 3.1 ändert dies mit nativem Raumklang: Das Modell generiert Ton zusammen mit dem Video und weiß dabei, was nah ist, was weit entfernt, was gedämpft ist und was durchdringt. Eine Tür, die hinter dem Motiv schließt, klingt anders als eine Tür im Vordergrund. Der Verkehr drei Stockwerke tiefer ist leiser und diffuser als Verkehr auf Straßenniveau. Dieser Leitfaden erklärt, wie Veos integrierte Audio-Generierung funktioniert, wie man die drei Audio-Ebenen separat denkt und wie man Prompts schreibt, die beim ersten Durchgang räumliche Tiefe erzeugen — mit drei ausgearbeiteten Szenen, die Sie sofort anpassen können.

Wie Veo 3.1 nativer Audio funktioniert

Veo 3.1 generiert Audio und Video in einem einzigen integrierten Durchgang. Anders als in einer zweistufigen Pipeline — bei der zuerst ein stilles Video exportiert wird und ein Audio-Modell dann versucht, es zu matchen — baut Veo die Klanglandschaft auf, während es die Frames konstruiert. Das Modell kennt das räumliche Layout der Szene, die es generiert: welche Elemente nah an der Kamera sind, welche im Hintergrund, wie dicht die Umgebung ist, ob Oberflächen Schall absorbieren oder reflektieren würden.

Der praktische Effekt ist Direktionalität. Nahfeld-Elemente (Schritte des Motivs, eine Hand, die eine Oberfläche berührt, Atemgeräusche) befinden sich in einer anderen scheinbaren Entfernung als Hintergrund-Elemente (Straßenlärm, Umgebungsbrummen, Menschengemurmel). Das Modell kann diese Schichten mit den geeigneten relativen Pegeln überlagern, weil es die räumliche Szene aufbaut, nicht nachträglich ableitet.

Hinweis

Nativer Audio ist auf allen drei Veo 3.1 Varianten bei OmniArt verfügbar: veo-3.1-standard, veo-3.1-fast und veo-3.1-lite. Die räumliche Kohärenz ist über alle Varianten hinweg konsistent; die Hauptunterschiede zwischen den Varianten betreffen Generierungsgeschwindigkeit und Auflösungsgrenze, nicht die Audioqualität.

Veo 3.1 bietet außerdem nativen 4K-Output, was für das Audio-Prompting einen spezifischen Bedeutungsunterschied hat: Höhere visuelle Wiedergabetreue bedeutet mehr Umgebungsdetails im Frame — und mehr Details, auf die das Audio-Modell reagieren kann. Ein Nahaufnahme-Shot eines regenbedeckten Kopfsteinpflasters in 4K gibt dem Modell wesentlich mehr, womit es arbeiten kann, als ein weicher 720p-Render derselben Szene.

Die drei Audio-Ebenen, die separat zu bedenken sind

Der zuverlässigste Weg, ein brauchbares Ergebnis aus Veo 3.1s Audio-Generierung zu erhalten, besteht darin, die Audio-Anweisungen gedanklich in drei Ebenen aufzuteilen, bevor man ein einziges Wort des Prompts schreibt. Jede Ebene hat unterschiedliche Eigenschaften und reagiert auf unterschiedliche Prompt-Muster.

Dialog

Dialog ist die präzisest steuerbare Ebene. Das Modell benötigt explizite Informationen: Was wird gesagt, wer sagt es und wie soll es vorgetragen werden. Im Gegensatz zu Umgebungsklang — bei dem das Modell vieles aus dem visuellen Kontext ableiten kann — hat Dialog kein visuelles Korrelat, das das Modell lesen kann. Eine Figur, die geht und spricht, sieht gleich aus, ob sie eine Einkaufsliste aufsagt oder einen Monolog vorträgt.

Schreiben Sie den Text wörtlich und fügen Sie dann eine Vorgabe zum Vortragsstil hinzu. Ein präzises Adjektiv für den Vortrag ist in der Regel wirksamer als zwei oder drei. Verlässlich funktionierende Vortragsvorgaben: warm and unhurried (warm und gemächlich), flat and exhausted (ausdruckslos und erschöpft), urgent, just above a whisper (dringend, knapp über einem Flüstern), soft but careful (weich aber bedacht). Vorgaben, die zu gemittelten Ergebnissen neigen: das Stapeln von Gegensätzen wie relaxed but tense oder quiet but intense.

Räumlicher Kontext spielt auch beim Dialog eine Rolle. Voice close-mic'd, room barely audible erzeugt ein anderes Ergebnis als voice slightly distant, reverberant room. Das Modell passt die akustische Umgebung an den beschriebenen Grad an Umgebungsraum an.

Atmosphäre und Umgebung

Atmosphäre ist die Ebene, die Veo 3.1 am deutlichsten von anderen Modellen unterscheidet. Da das Modell das räumliche Layout kennt, das es generiert, können Sie eine Umgebung in Schichten und Entfernungen beschreiben — und das Modell kann tatsächlich auf diese Beschreibung reagieren.

Ein nützliches Denkmodell: Stellen Sie sich drei konzentrische Zonen vor — unmittelbarer Vordergrund (in Reichweite der Kamera), mittlerer Bereich (der aktive Szenenraum) und Hintergrund (was durch Fenster oder am Rand des Frames zu hören wäre). Elemente in jeder Zone zu benennen und ihre relativen Pegel anzugeben, gibt dem Modell ein räumliches Mix-Ziel.

Zone	Beispielelemente	Prompt-Formulierung
Vordergrund	Rascheln von Stoff, Atemgeräusche, Hände auf einer Oberfläche	"close fabric rustle", "subject's quiet breathing"
Mittlerer Bereich	Schritte, Gespräche, Werkzeuge, Kochgeräusche	"footsteps on concrete nearby", "clink of cups on the counter"
Hintergrund	Straßenverkehr, Menschengemurmel, Umgebungsbrummen	"traffic muffled behind glass", "distant crowd, barely audible"

Alle drei Zonen müssen nicht gefüllt werden. Eine minimalistische Innenszene benötigt möglicherweise nur ein Element im mittleren Bereich und einen subtilen Raumton. Zu viele Spezifikationen für Zonen, die keine Klänge haben sollten, überladen den Mix.

Soundeffekte (SFX)

SFX sind diskrete Audio-Ereignisse, die an spezifische visuelle Momente gebunden sind: eine öffnende Tür, ein abgelegtes Objekt, ein Benachrichtigungston, ein vorbeifahrendes Fahrzeug. Da Veo Audio gemeinsam mit dem Video generiert, tendieren SFX, die sichtbaren On-Screen-Aktionen entsprechen, zur natürlichen Synchronisation — das Modell weiß, dass eine Hand nach einem Glas greift, bevor sie Kontakt macht.

Für SFX, die präzise einsetzen müssen, beschreiben Sie diese als visuelle Ereignisse, nicht als Audio-Ereignisse. „She sets the phone face-down on the desk" instruiert sowohl die visuelle Handlung als auch den Ton, den sie produziert; „a clunk as the phone hits the desk" beschreibt den Ton abstrakt und ist für das Modell schwerer zu synchronisieren.

Wenn Sie einen SFX benötigen, der nicht an eine On-Screen-Aktion gebunden ist — ein Ton von außerhalb des Frames, eine atmosphärische Interpunktion — behandeln Sie ihn wie einen Dialog-Cue: Benennen Sie ihn explizit und geben Sie ihm räumlichen Kontext. „A car alarm starts briefly in the distance, off-frame right" ist präziser als „random street noise includes a car alarm."

Drei ausgearbeitete Szenen

Diese Beispiele zeigen das vollständige Prompt-Muster angewendet auf drei verschiedene Audio-Szenarien. Jedes demonstriert eine andere primäre Audio-Herausforderung.

Szene 1: Räumliche Nah/Fern-Schichtung auf einer Straße

Kontext: Ein Motiv geht eine Geschäftsstraße entlang auf einen Ladeneingang zu. Das Audio muss den räumlichen Unterschied zwischen nahen Elementen (die Schritte des Motivs, Umgebungsatemgeräusche) und der umgebenden Umgebung (Verkehr, eine Ladentür) zeigen.

Prompt:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

Was zu erwarten ist: Schritte sollten im Nahfeld sitzen, klar vom Hintergrundverkehr getrennt. Der Übergang an der Tür — von außen zu gedämpftem Innenraum — ist das räumliche Ereignis, auf das der Prompt zielt, und Veos integrierte Generierung bedeutet, dass das Modell die visuelle Blockierung dieses Moments kennt.

Justiermöglichkeiten: Wenn der Verkehr im Verhältnis zu den Schritten zu laut ist, fügen Sie traffic well back, not competing with footsteps hinzu. Wenn der Türübergang zu abrupt ist, fügen Sie gradual acoustic shift as the door opens hinzu.

Szene 2: Dialog-freier Stimmungsshot, der allein durch Atmosphäre getragen wird

Kontext: Ein breiter Innenshot in der Dämmerung — kein Dialog, keine offensichtliche Aktion. Das Audio soll das emotionale Register der Szene ausschließlich durch Umgebungsschichten tragen.

Prompt:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

Was zu erwarten ist: Ein geschichteter Umgebungs-Mix, bei dem die Pausen zwischen den Ereignissen so hörbar sind wie die Ereignisse selbst. Das Modell soll quiet enough to hear the silence between sounds als Mix-Pegelanweisung behandeln — alle Elemente niedrig genug halten, dass der Raumton wahrnehmbar ist.

Justiermöglichkeiten: Die Phrase quiet enough to hear the silence kann durch Hinzufügen von each element appearing only briefly, not constant verstärkt werden. Fügen Sie a phone buzzing once on a surface, off-frame hinzu, um eine narrative Interpunktion einzuführen, ohne die Stimmung zu brechen.

Tipp

Dialog-freie Atmosphäre-Szenen sind der Bereich, in dem Veo 3.1s Raumklang seinen Vorteil gegenüber Flat-Audio-Modellen am deutlichsten zeigt. Wenn das Ergebnis wie ein einziger geloopter Hintergrundtrack statt wie eine geschichtete Umgebung klingt, ist der Prompt wahrscheinlich zu wenig spezifiziert — fügen Sie ein zweites oder drittes benanntes Element mit expliziter räumlicher Platzierung hinzu.

Szene 3: Intonation auf Satzebene im Dialog

Kontext: Eine Figur stellt der Kamera eine einzelne Frage. Die Wiedergabe braucht natürliche Intonation auf Satzebene — konkret das hörbare Ansteigen am Ende einer Frage — keine mechanisch flache Lesung.

Prompt:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

Was zu erwarten ist: Die Vorgabe rising slightly on 'find out' und genuinely confused rather than angry soll sowohl die Audio-Wellenform als auch den Tonhöhenverlauf der Sprechweise prägen. Die Raumtonanweisungen (no reverb) legen die akustische Umgebung fest, damit der Dialog nicht so klingt, als wäre er in einem anderen Raum aufgenommen worden.

Justiermöglichkeiten: Wenn die Sprechweise zu flach ist, ersetzen Sie quiet durch controlled but emotionally present. Wenn die Satzintonation nicht durchkommt, trennen Sie die Vortragsvorgabe von der emotionalen Vorgabe: Nennen Sie zunächst die Emotion, dann die spezifische Intonationsanweisung.

Vor der Neu-Generierung: Ein flaches oder mechanisches Ergebnis lesen

Nicht jede Generierung braucht eine Prompt-Überarbeitung. Manche Ergebnisse brauchen nur eine längere Dauer oder einen anderen Seed. Aber es gibt spezifische Muster, die darauf hinweisen, dass der Prompt selbst das Problem ist:

Flaches Ergebnis (keine räumliche Tiefe): Alle Audio-Elemente sitzen in der gleichen scheinbaren Entfernung ohne Vordergrund/Hintergrund-Unterscheidung. Lösung: Fügen Sie explizite räumliche Sprache zu mindestens zwei Elementen hinzu — eines als nah markiert, eines als entfernt oder gedämpft. Das Modell braucht einen Kontrast zum Handeln.

Mechanischer Dialog: Die Wiedergabe ist gleichmäßig getaktet ohne Pausen, ohne Tonhöhenvariation, ohne Intonation auf der letzten Silbe. Lösung: Schreiben Sie eine konkrete Intonationsanweisung in den Prompt (Anstieg am Frageende, Verlangsamung bei einem emotionalen Beat, Absenkung am Aussagenende). Abstrakte Vortragsvorgaben wie natural oder realistic sind zu vage, um das Ergebnis zu verändern.

Überfrachteter Mix: Zu viele Audio-Elemente kämpfen um Präsenz, nichts sitzt klar. Lösung: Reduzieren Sie auf die zwei oder drei wichtigsten Elemente und beschreiben Sie deren relative Pegel explizit. Drei gut platzierte Klänge sind besser als sieben konkurrierende.

Falsche akustische Umgebung: Der Raum klingt zu hallend oder zu trocken für das Bild. Lösung: Benennen Sie den akustischen Charakter direkt — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

Symptom	Wahrscheinliche Ursache	Lösung
Keine räumliche Tiefe	Nah/Fern-Sprache fehlt	Explizite Entfernungsqualifizierer bei 2+ Elementen hinzufügen
Mechanischer Dialog	Vage Vortragsvorgaben	Eine konkrete Intonationsanweisung hinzufügen
Überfrachteter Mix	Zu viele Quellen	Auf 2–3 Elemente mit relativen Pegeln reduzieren
Falsche akustische Umgebung	Kein akustischer Kontext angegeben	Raumcharakter explizit benennen

Best-Practices-Übersicht

Was tun	Warum
Dialog, Atmosphäre und SFX gedanklich trennen, bevor Sie schreiben	Jede Ebene reagiert auf unterschiedliche Prompt-Muster
Atmosphäre-Elemente nach Zone benennen — Vordergrund, Mitte, Hintergrund	Gibt dem Modell ein räumliches Mix-Ziel statt einer flachen Beschreibung
Dialog-Zeilen wörtlich mit einer Vortragsvorgabe aufschreiben	Das Modell braucht den exakten Text und eine tonale Richtung
SFX als visuelle Ereignisse beschreiben, nicht als Audio-Ereignisse	Synchronisation mit On-Screen-Aktion ist leichter zu modellieren als abstrakte Zeitpunkte
`no music` verwenden, wenn Sie nur Effekte wollen	Verhindert, dass automatisches Scoring einen Hintergrundtrack hinzufügt
Anzahl der benannten Elemente niedrig halten	Drei gut platzierte Klänge schlagen sieben konkurrierende
Die akustische Umgebung benennen	Der Raumcharakter bestimmt, wie alle anderen Elemente sitzen

Erste Schritte auf OmniArt

Alle drei Veo 3.1 Varianten — veo-3.1-standard, veo-3.1-fast und veo-3.1-lite — sind im Video-Workspace von OmniArt mit demselben Guthaben und derselben Prompt-Oberfläche verfügbar, ohne separates Google-Konto oder API-Schlüssel. Der schnellste Weg, das Audio-Prompting zu kalibrieren, ist mit einem einzigen Nah/Fern-Kontrast in einer einfachen Szene zu beginnen, zu sehen, was das Modell produziert, und dann Schicht für Schicht hinzuzufügen, bis der Mix stimmt.

Für eine ausführlichere Behandlung von Veo 3.1s Kameraführung und Prompt-Struktur empfehlen wir den Veo 3.1 Prompt- und Kameraführungsleitfaden. Wenn Sie mit einem Modell arbeiten, das Audio in einem einzelnen integrierten Durchgang auf einer anderen Pipeline generiert, deckt der Grok Imagine Nativ-Audio-Leitfaden ähnliche Prompt-Logik für das native Audio-System von xAI ab.

Jetzt auf OmniArt generieren

Bereit zum Erstellen?

Starte mit KI die Erstellung beeindruckender Inhalte

Kostenlos starten