Veo 3.1 audio spaziale: le migliori pratiche per un suono che si adatta al piano
Veo 3.1 genera dialogo, ambiente e SFX insieme al video, con vera profondità direzionale. Come scrivere prompt per ogni strato audio in modo intenzionale affinché il suono si adatti davvero al piano, su OmniArt.

La maggior parte degli audio nei video generati dall'IA suona posizionato anziché presente. Un clip di un mercato affollato riceve il rumore della folla; un clip di una foresta riceve il canto degli uccelli. Entrambi tecnicamente corretti, eppure nessuno dei due convincente, perché il suono non sa dove si trovano le cose nel frame. Veo 3.1 cambia questo con l'audio spaziale nativo: il modello genera il suono insieme al video, consapevole di cosa è vicino, cosa è lontano, cosa è attutito e cosa risuona. Una porta che si chiude dietro il soggetto suona diversa da una porta che si chiude in primo piano. Il traffico tre piani sotto è più silenzioso e diffuso del traffico al livello della strada. Questa guida spiega come funziona la generazione audio integrata di Veo, come pensare ai tre strati audio separatamente e come scrivere prompt che producono profondità spaziale fin dal primo tentativo — con tre scene elaborate che puoi adattare immediatamente.
Come funziona l'audio nativo di Veo 3.1
Veo 3.1 genera audio e video in un unico passaggio integrato. A differenza di una pipeline in due fasi — dove un video muto viene esportato e poi un modello audio cerca di sincronizzarsi — Veo costruisce il paesaggio sonoro mentre costruisce i frame. Il modello conosce il layout spaziale della scena che sta generando: quali elementi sono vicini alla camera, quali sono nello sfondo, quanto è densa l'ambientazione, se le superfici assorbiranno o rifletteranno il suono.
L'effetto pratico è la direzionalità. Gli elementi di campo vicino (i passi del soggetto, una mano che tocca una superficie, la respirazione) si trovano a una distanza apparente diversa dagli elementi di sfondo (rumore di strada, ronzio ambientale, chiacchiericcio di folla). Il modello può sovrapporre questi suoni ai livelli relativi appropriati perché sta costruendo la scena spaziale, non deducendola dopo il fatto.
Nota
Veo 3.1 offre anche output nativo in 4K, che ha un'importanza specifica per il prompting audio: una fedeltà visiva più alta significa più dettagli ambientali nel frame — e più dettagli a cui il modello audio può rispondere. Un primo piano 4K di una strada acciottolata bagnata di pioggia dà al modello molto più materiale di un render morbido in 720p della stessa scena.
I tre strati audio da considerare separatamente
Il modo più affidabile per ottenere un risultato utile dalla generazione audio di Veo 3.1 è separare mentalmente le istruzioni audio in tre strati prima di scrivere una sola parola del prompt. Ogni strato ha caratteristiche diverse e risponde a pattern di prompt differenti.
Dialogo
Il dialogo è lo strato più controllabile con precisione. Il modello ha bisogno di informazioni esplicite: cosa viene detto, chi lo dice e come deve essere recitato. A differenza dei suoni ambientali — dove il modello può dedurre molto dal contesto visivo — il dialogo non ha un correlato visivo che il modello possa leggere. Un personaggio che cammina e parla ha lo stesso aspetto sia che stia recitando una lista della spesa sia che stia pronunciando un monologo.
Scrivi la battuta parola per parola, poi aggiungi una nota di interpretazione. Un aggettivo di interpretazione conciso è di solito più efficace di due o tre. Note di interpretazione che funzionano in modo affidabile: warm and unhurried (caldo e senza fretta), flat and exhausted (piatto ed esausto), urgent, just above a whisper (urgente, appena sopra un sussurro), soft but careful (morbido ma attento). Note che tendono a produrre risultati mediocri: impilare opposti come relaxed but tense o quiet but intense.
Il contesto spaziale conta anche per il dialogo. Voice close-mic'd, room barely audible produce un risultato diverso da voice slightly distant, reverberant room. Il modello adatterà l'ambiente acustico al livello di spazio ambientale che descrivi.
Ambiente e ambientazione
L'ambientazione è lo strato che Veo 3.1 gestisce nel modo più distintivo. Poiché il modello conosce il layout spaziale che sta generando, puoi descrivere un ambiente in termini di strati e distanze e il modello può effettivamente agire su quella descrizione.
Un modello mentale utile: pensa a tre zone concentriche — primo piano immediato (entro la portata della camera), piano intermedio (lo spazio attivo della scena) e sfondo (ciò che si sentirebbe attraverso le finestre o al bordo del frame). Nominare elementi in ogni zona e indicare i loro livelli relativi dà al modello un target di missaggio spaziale.
| Zona | Esempi di elementi | Formulazione nel prompt |
|---|---|---|
| Primo piano | Fruscio di tessuto, respiro, mani su una superficie | "close fabric rustle", "subject's quiet breathing" |
| Piano intermedio | Passi, conversazione, strumenti, suoni di cucina | "footsteps on concrete nearby", "clink of cups on the counter" |
| Sfondo | Traffico di strada, mormorio di folla, ronzio ambientale | "traffic muffled behind glass", "distant crowd, barely audible" |
Non è necessario riempire tutte e tre le zone. Una scena d'interno minimalista potrebbe richiedere solo un elemento nel piano intermedio e un tono di stanza sottile. Specificare eccessivamente zone che non dovrebbero avere suono ingombra il mix.
Effetti sonori (SFX)
Gli SFX sono eventi audio discreti legati a momenti visivi specifici: una porta che si apre, un oggetto posato, un suono di notifica, un veicolo che passa. Poiché Veo genera audio insieme al video, gli SFX che corrispondono ad azioni visibili sullo schermo tendono a sincronizzarsi naturalmente — il modello sa che una mano si sta allungando verso un bicchiere prima di fare contatto.
Per gli SFX che devono atterrare con precisione, descrivili come eventi visivi, non come eventi audio. "She sets the phone face-down on the desk" istruisce sia l'azione visiva sia il suono che produce; "a clunk as the phone hits the desk" descrive il suono in modo astratto ed è più difficile da sincronizzare per il modello.
Quando hai bisogno di un SFX non legato a un'azione sullo schermo — un suono fuori campo, una punteggiatura ambientale — trattalo come un cue di dialogo: nominalo esplicitamente e dagli un contesto spaziale. "A car alarm starts briefly in the distance, off-frame right" è più preciso di "random street noise includes a car alarm."
Tre scene elaborate
Questi esempi mostrano il pattern completo di prompt applicato a tre diversi scenari audio. Ognuno dimostra una sfida audio principale diversa.
Scena 1: Stratificazione spaziale vicino/lontano su una strada
Contesto: Un soggetto cammina lungo una strada commerciale verso l'ingresso di un negozio. L'audio deve mostrare la differenza spaziale tra gli elementi vicini (i passi del soggetto, il respiro ambientale) e l'ambiente circostante (traffico, una porta del negozio).
Prompt:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
Cosa aspettarsi: I passi dovrebbero stare nel campo vicino, chiaramente separati dal traffico in background. La transizione alla porta — dall'esterno all'interno attutito — è l'evento spaziale verso cui il prompt si dirige, e la generazione integrata di Veo significa che il modello conosce il blocking visivo di quel momento.
Leve di regolazione: Se il traffico è troppo alto rispetto ai passi, aggiungi traffic well back, not competing with footsteps. Se la transizione alla porta è troppo brusca, aggiungi gradual acoustic shift as the door opens.
Scena 2: Piano atmosferico senza dialogo sostenuto solo dall'ambientazione
Contesto: Un ampio piano interno al tramonto — nessun dialogo, nessuna azione evidente. L'audio deve portare il registro emotivo della scena interamente attraverso strati ambientali.
Prompt:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
Cosa aspettarsi: Un mix ambientale stratificato in cui le pause tra gli eventi sono udibili quanto gli eventi stessi. Il modello dovrebbe trattare quiet enough to hear the silence between sounds come un'istruzione sul livello del mix — mantenendo tutti gli elementi abbastanza bassi da permettere di percepire il tono della stanza.
Leve di regolazione: La frase quiet enough to hear the silence può essere rafforzata aggiungendo each element appearing only briefly, not constant. Aggiungi a phone buzzing once on a surface, off-frame per introdurre una punteggiatura narrativa senza rompere l'atmosfera.
Suggerimento
Scena 3: Intonazione a livello di frase nel dialogo
Contesto: Un personaggio pone una singola domanda alla camera. La recitazione necessita di un'intonazione naturale a livello di frase — specificamente, il caratteristico rialzo udibile alla fine di una domanda — non una lettura meccanicamente piatta.
Prompt:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
Cosa aspettarsi: La nota di interpretazione rising slightly on 'find out' e genuinely confused rather than angry dovrebbe modellare sia la forma d'onda audio sia il contorno di tono della recitazione. Le istruzioni sul tono della stanza (no reverb) stabiliscono l'ambiente acustico in modo che il dialogo non suoni come se fosse stato registrato in uno spazio diverso.
Leve di regolazione: Se la recitazione è troppo piatta, sostituisci quiet con controlled but emotionally present. Se l'intonazione della frase non emerge, separa la nota di interpretazione dalla nota emotiva: indica prima l'emozione, poi l'istruzione specifica sull'intonazione.
Prima di rigenerare: leggere un risultato piatto o meccanico
Non ogni generazione richiede una revisione del prompt. Alcuni risultati necessitano solo di una durata maggiore o di un seed diverso. Ma esistono pattern specifici che indicano che il prompt stesso è il problema:
Risultato piatto (nessuna profondità spaziale): Tutti gli elementi audio si trovano alla stessa distanza apparente senza distinzione primo piano/sfondo. Soluzione: aggiungi un linguaggio spaziale esplicito ad almeno due elementi — uno contrassegnato come vicino, uno come lontano o attutito. Il modello ha bisogno di un contrasto su cui agire.
Dialogo meccanico: La recitazione è a ritmo uniforme senza pause, senza variazioni di tono, senza intonazione sull'ultima sillaba. Soluzione: scrivi un'istruzione di intonazione concreta nel prompt (salita alla fine della domanda, rallentamento su un beat emotivo, discesa alla chiusura di un'affermazione). Le note di interpretazione astratte come natural o realistic sono troppo vaghe per cambiare il risultato.
Mix sovraccarico: Troppi elementi audio in competizione per la presenza, nessuno si posiziona chiaramente. Soluzione: riduci ai due o tre elementi più importanti e descrivi i loro livelli relativi esplicitamente. Tre suoni ben posizionati valgono più di sette in competizione.
Ambiente acustico sbagliato: La stanza suona troppo riverberante o troppo secca per il visivo. Soluzione: nomina direttamente il carattere acustico — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.
| Sintomo | Causa probabile | Soluzione |
|---|---|---|
| Nessuna profondità spaziale | Linguaggio vicino/lontano assente | Aggiungere qualificatori di distanza espliciti a 2+ elementi |
| Dialogo meccanico | Note di interpretazione vaghe | Aggiungere un'istruzione di intonazione specifica |
| Mix sovraccarico | Troppe fonti | Ridurre a 2–3 elementi con livelli relativi |
| Ambiente acustico sbagliato | Nessun contesto acustico fornito | Nominare esplicitamente il carattere della stanza |
Riepilogo delle best practice
| Cosa fare | Perché |
|---|---|
| Separare mentalmente dialogo, ambientazione e SFX prima di scrivere | Ogni strato risponde a pattern di prompt diversi |
| Nominare gli elementi ambientali per zona — primo piano, piano intermedio, sfondo | Dà al modello un target di missaggio spaziale, non una descrizione piatta |
| Scrivere le battute del dialogo parola per parola con una nota di interpretazione | Il modello ha bisogno del testo esatto e di una direzione tonale |
| Descrivere gli SFX come eventi visivi, non come eventi audio | La sincronizzazione con l'azione sullo schermo è più facile da modellare della temporizzazione astratta |
Usare no music quando vuoi solo effetti | Impedisce allo scoring automatico di aggiungere una traccia di sfondo |
| Mantenere basso il numero di elementi nominati | Tre suoni ben posizionati battono sette in competizione |
| Nominare l'ambiente acustico | Il carattere della stanza determina come si posizionano tutti gli altri elementi |
Inizia su OmniArt
Tutte e tre le varianti di Veo 3.1 — veo-3.1-standard, veo-3.1-fast e veo-3.1-lite — sono disponibili nello spazio di lavoro video di OmniArt con lo stesso saldo di crediti e la stessa interfaccia di prompt, senza bisogno di un account Google separato o di una chiave API. Il modo più veloce per calibrare i tuoi prompt audio è iniziare con un singolo contrasto vicino/lontano in una scena semplice, vedere cosa produce il modello e poi aggiungere strati uno alla volta finché il mix è dove lo vuoi.
Per un trattamento più ampio della cinematografia e della struttura dei prompt di Veo 3.1, consulta la guida ai prompt e alla cinematografia di Veo 3.1. Se stai lavorando con un modello che genera audio in un singolo passaggio integrato su una pipeline diversa, i pattern nella guida all'audio nativo di Grok Imagine coprono una logica di prompting simile per il sistema audio nativo di xAI.
Pronto a creare?
Inizia a generare contenuti straordinari con l’AI