guideTutoriels et guides pratiques13 min de lecture

Veo 3.1 audio spatial : meilleures pratiques pour un son qui colle au plan

Veo 3.1 génère le dialogue, l'ambiance et les SFX conjointement avec la vidéo, avec une véritable profondeur directionnelle. Comment écrire des prompts pour chaque couche audio de manière délibérée afin que le son colle réellement au plan, dans OmniArt.

Équipe OmniArt12 juin 2026

La plupart des audios de vidéos générées par IA sonnent comme posés plutôt que présents. Un clip de marché animé reçoit du bruit de foule ; un clip de forêt reçoit des chants d'oiseaux. Techniquement corrects, et pourtant aucun des deux n'est convaincant, parce que le son ne sait pas où se trouvent les éléments dans le cadre. Veo 3.1 change cela avec l'audio spatial natif : le modèle génère le son en même temps que la vidéo, conscient de ce qui est proche, de ce qui est lointain, de ce qui est étouffé et de ce qui perce. Une porte se fermant derrière le sujet sonne différemment d'une porte se fermant au premier plan. La circulation trois étages en dessous est plus silencieuse et plus diffuse que la circulation au niveau de la rue. Ce guide explique comment fonctionne la génération audio intégrée de Veo, comment penser les trois couches audio séparément et comment écrire des prompts qui produisent de la profondeur spatiale dès la première génération — avec trois scènes travaillées que vous pouvez adapter immédiatement.

Comment fonctionne l'audio natif de Veo 3.1

Veo 3.1 génère audio et vidéo en un seul passage intégré. Contrairement à un pipeline en deux étapes — où une vidéo muette est exportée et un modèle audio tente ensuite de la synchroniser — Veo construit le paysage sonore en même temps qu'il construit les images. Le modèle connaît la disposition spatiale de la scène qu'il génère : quels éléments sont proches de la caméra, lesquels sont en arrière-plan, quelle est la densité de l'environnement, si les surfaces absorberaient ou réfléchiraient le son.

L'effet pratique est la directionnalité. Les éléments de champ proche (les pas du sujet, une main touchant une surface, la respiration) se situent à une distance apparente différente des éléments d'arrière-plan (bruit de rue, bourdonnement ambiant, bavardage de foule). Le modèle peut superposer ces sons aux niveaux relatifs appropriés parce qu'il construit la scène spatiale, plutôt que de l'inférer après coup.

Note

L'audio natif est disponible sur les trois variantes de Veo 3.1 sur OmniArt : veo-3.1-standard, veo-3.1-fast et veo-3.1-lite. La cohérence spatiale est identique entre les variantes ; les principales différences portent sur la vitesse de génération et le plafond de résolution, pas sur la qualité audio.

Veo 3.1 propose également une sortie native en 4K, ce qui a une incidence spécifique sur le prompting audio : une fidélité visuelle plus élevée signifie plus de détails environnementaux dans le cadre — et plus de détails auxquels le modèle audio peut répondre. Un gros plan 4K d'une rue pavée sous la pluie donne au modèle beaucoup plus à exploiter qu'un rendu flou en 720p de la même scène.

Les trois couches audio à considérer séparément

La façon la plus fiable d'obtenir un résultat utile de la génération audio de Veo 3.1 est de séparer mentalement les instructions audio en trois couches avant d'écrire le moindre mot du prompt. Chaque couche a des caractéristiques différentes et répond à des patterns de prompt distincts.

Dialogue

Le dialogue est la couche la plus précisément contrôlable. Le modèle a besoin d'informations explicites : ce qui est dit, qui le dit, et comment cela doit être rendu. Contrairement au son ambiant — où le modèle peut inférer beaucoup à partir du contexte visuel — le dialogue n'a pas de correspondant visuel que le modèle peut lire. Un personnage marchant et parlant a la même apparence qu'il récite une liste de courses ou prononce un monologue.

Écrivez la réplique mot pour mot, puis faites-la suivre d'une note de jeu. Un adjectif de jeu concis est généralement plus efficace que deux ou trois. Notes de jeu qui fonctionnent de manière fiable : warm and unhurried (chaleureux et sans précipitation), flat and exhausted (plat et épuisé), urgent, just above a whisper (urgent, juste au-dessus d'un murmure), soft but careful (doux mais attentif). Notes qui tendent à produire des résultats moyennés : l'empilement d'opposés comme relaxed but tense ou quiet but intense.

Le contexte spatial compte également pour le dialogue. Voice close-mic'd, room barely audible produit un résultat différent de voice slightly distant, reverberant room. Le modèle fera correspondre l'environnement acoustique au niveau d'espace ambiant que vous décrivez.

Ambiance et environnement

L'ambiance est la couche que Veo 3.1 traite de la façon la plus distinctive. Parce que le modèle connaît la disposition spatiale qu'il génère, vous pouvez décrire un environnement en termes de couches et de distances, et le modèle peut réellement agir sur cette description.

Un modèle mental utile : pensez à trois zones concentriques — premier plan immédiat (à portée de la caméra), plan intermédiaire (l'espace de scène actif) et arrière-plan (ce qui serait entendu à travers des fenêtres ou en bordure du cadre). Nommer des éléments dans chaque zone et indiquer leurs niveaux relatifs donne au modèle un objectif de mixage spatial.

Zone	Éléments exemples	Formulation dans le prompt
Premier plan	Froissement de tissu, respiration, mains sur une surface	"close fabric rustle", "subject's quiet breathing"
Plan intermédiaire	Pas, conversation, outils, sons de cuisine	"footsteps on concrete nearby", "clink of cups on the counter"
Arrière-plan	Circulation de rue, murmure de foule, bourdonnement ambiant	"traffic muffled behind glass", "distant crowd, barely audible"

Il n'est pas nécessaire de remplir les trois zones. Une scène d'intérieur minimaliste peut n'avoir besoin que d'un élément au plan intermédiaire et d'un ton de pièce subtil. Surspécifier des zones qui ne devraient pas avoir de son encombre le mix.

Effets sonores (SFX)

Les SFX sont des événements audio discrets liés à des moments visuels spécifiques : une porte s'ouvrant, un objet posé, un son de notification, un véhicule passant. Comme Veo génère l'audio conjointement avec la vidéo, les SFX correspondant à des actions visibles à l'écran tendent à se synchroniser naturellement — le modèle sait qu'une main s'approche d'un verre avant qu'elle ne le touche.

Pour les SFX qui doivent tomber précisément, décrivez-les comme des événements visuels plutôt que comme des événements audio. « She sets the phone face-down on the desk » instruit à la fois l'action visuelle et le son qu'elle produit ; « a clunk as the phone hits the desk » décrit le son de manière abstraite et est plus difficile à synchroniser pour le modèle.

Lorsque vous avez besoin d'un SFX qui n'est pas attaché à une action à l'écran — un son hors-champ, une ponctuation environnementale — traitez-le comme vous le feriez pour une indication de dialogue : nommez-le explicitement et donnez-lui un contexte spatial. « A car alarm starts briefly in the distance, off-frame right » est plus précis que « random street noise includes a car alarm. »

Trois scènes travaillées

Ces exemples montrent le pattern de prompt complet appliqué à trois scénarios audio différents. Chacun démontre un défi audio principal distinct.

Scène 1 : Séparation spatiale proche/lointain dans une rue

Contexte : Un sujet marche le long d'une rue commerciale vers l'entrée d'une boutique. L'audio doit montrer la différence spatiale entre les éléments proches (les pas du sujet, la respiration ambiante) et l'environnement alentour (circulation, la porte de la boutique).

Prompt :

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

Ce à quoi s'attendre : Les pas doivent se situer en champ proche, clairement séparés de la circulation en arrière-plan. La transition à la porte — de l'extérieur à l'intérieur étouffé — est l'événement spatial vers lequel le prompt dirige, et la génération intégrée de Veo signifie que le modèle connaît le découpage visuel de ce moment.

Leviers d'ajustement : Si la circulation est trop forte par rapport aux pas, ajoutez traffic well back, not competing with footsteps. Si la transition à la porte est trop abrupte, ajoutez gradual acoustic shift as the door opens.

Scène 2 : Plan d'atmosphère sans dialogue porté uniquement par l'ambiance

Contexte : Un large plan intérieur au crépuscule — pas de dialogue, pas d'action évidente. L'audio doit porter le registre émotionnel de la scène entièrement à travers des couches environnementales.

Prompt :

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

Ce à quoi s'attendre : Un mix environnemental en couches où les pauses entre les événements sont aussi audibles que les événements eux-mêmes. Le modèle doit traiter quiet enough to hear the silence between sounds comme une instruction de niveau de mix — maintenant tous les éléments suffisamment bas pour que le ton de la pièce soit perceptible.

Leviers d'ajustement : La phrase quiet enough to hear the silence peut être renforcée en ajoutant each element appearing only briefly, not constant. Ajoutez a phone buzzing once on a surface, off-frame pour introduire une ponctuation narrative sans briser l'atmosphère.

Astuce

Les scènes d'ambiance sans dialogue sont là où l'audio spatial de Veo 3.1 démontre le plus clairement son avantage sur les modèles à audio plat. Si le résultat ressemble à une unique piste de fond en boucle plutôt qu'à un environnement en couches, le prompt est probablement sous-spécifié — ajoutez un deuxième ou troisième élément nommé avec un positionnement spatial explicite.

Scène 3 : Intonation au niveau de la phrase dans le dialogue

Contexte : Un personnage pose une unique question face caméra. Le rendu nécessite une intonation naturelle au niveau de la phrase — spécifiquement, la montée audible en fin de question — et non une lecture mécaniquement plate.

Prompt :

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

Ce à quoi s'attendre : La note de jeu rising slightly on 'find out' et genuinely confused rather than angry doit façonner à la fois la forme d'onde audio et le contour de hauteur du rendu. Les instructions de ton de pièce (no reverb) établissent l'environnement acoustique pour que le dialogue ne semble pas avoir été enregistré dans un espace différent.

Leviers d'ajustement : Si le rendu est trop plat, remplacez quiet par controlled but emotionally present. Si l'intonation de la phrase ne ressort pas, séparez la note de jeu de la note émotionnelle : indiquez d'abord l'émotion, puis l'instruction d'intonation spécifique.

Avant de regénérer : lire un résultat plat ou mécanique

Toutes les générations n'ont pas besoin d'une révision du prompt. Certains résultats nécessitent simplement une durée plus longue ou une seed différente. Mais il existe des patterns spécifiques qui indiquent que le prompt lui-même est le problème :

Résultat plat (pas de profondeur spatiale) : Tous les éléments audio se situent à la même distance apparente sans distinction premier plan/arrière-plan. Correction : ajoutez du langage spatial explicite à au moins deux éléments — un marqué comme proche, un comme lointain ou étouffé. Le modèle a besoin d'un contraste pour agir.

Dialogue mécanique : Le rendu est à rythme uniforme sans pauses, sans variation de hauteur, sans intonation sur la syllabe finale. Correction : écrivez une instruction d'intonation concrète dans le prompt (montée en fin de question, ralentissement sur un temps émotionnel, descente en clôture d'une affirmation). Les notes de jeu abstraites comme natural ou realistic sont trop vagues pour changer le résultat.

Mix surchargé : Trop d'éléments audio se disputant la présence, rien ne se positionne clairement. Correction : réduisez aux deux ou trois éléments les plus importants et décrivez leurs niveaux relatifs explicitement. Mieux vaut trois sons bien placés que sept en compétition.

Environnement acoustique incorrect : La pièce sonne trop réverbérante ou trop sèche pour le visuel. Correction : nommez directement le caractère acoustique — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

Symptôme	Cause probable	Correction
Pas de profondeur spatiale	Langage proche/lointain absent	Ajouter des qualificateurs de distance explicites à 2+ éléments
Dialogue mécanique	Notes de jeu vagues	Ajouter une instruction d'intonation spécifique
Mix surchargé	Trop de sources	Réduire à 2–3 éléments avec niveaux relatifs
Environnement acoustique incorrect	Pas de contexte acoustique fourni	Nommer explicitement le caractère de la pièce

Résumé des meilleures pratiques

Quoi faire	Pourquoi
Séparer dialogue, ambiance et SFX mentalement avant d'écrire	Chaque couche répond à des patterns de prompt différents
Nommer les éléments d'ambiance par zone — premier plan, plan intermédiaire, arrière-plan	Donne au modèle un objectif de mixage spatial, pas une description plate
Écrire les répliques de dialogue mot pour mot avec une note de jeu	Le modèle a besoin du texte exact et d'une direction tonale
Décrire les SFX comme des événements visuels, pas des événements audio	La synchronisation avec l'action à l'écran est plus facile à modéliser que le timing abstrait
Utiliser `no music` quand vous voulez uniquement des effets	Empêche la musique automatique d'ajouter une piste de fond
Maintenir le nombre d'éléments nommés bas	Trois sons bien placés l'emportent sur sept en compétition
Nommer l'environnement acoustique	Le caractère de la pièce détermine comment tous les autres éléments s'inscrivent

Commencez sur OmniArt

Les trois variantes de Veo 3.1 — veo-3.1-standard, veo-3.1-fast et veo-3.1-lite — sont disponibles dans l'espace de travail vidéo d'OmniArt avec le même solde de crédits et la même interface de prompt, sans compte Google séparé ni clé API requise. La façon la plus rapide de calibrer vos prompts audio est de commencer par un unique contraste proche/lointain dans une scène simple, de voir ce que le modèle produit, puis d'ajouter des couches une par une jusqu'à obtenir le mix souhaité.

Pour un traitement plus large de la cinématographie et de la structure des prompts de Veo 3.1, consultez le guide de prompt et de cinématographie de Veo 3.1. Si vous travaillez avec un modèle qui génère l'audio en un seul passage intégré sur un pipeline différent, les patterns du guide audio natif de Grok Imagine couvrent une logique de prompting similaire pour le système audio natif de xAI.

Commencez à générer sur OmniArt

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA

Commencer gratuitement