guideTutoriais e guias práticos13 min de leitura

Veo 3.1 áudio espacial: melhores práticas para um som que combina com a cena

O Veo 3.1 gera diálogo, ambiência e SFX junto com o vídeo — com profundidade direcional real. Veja como criar prompts para cada camada de áudio de forma intencional para que o som realmente combine com a cena no OmniArt.

Equipe OmniArt12 de jun. de 2026

A maioria dos áudios em vídeos gerados por IA parece inserida em vez de presente. Um clipe de mercado movimentado recebe ruído de multidão; um clipe de floresta recebe canto de pássaros. Tecnicamente correto, mas nenhum dos dois é convincente, porque o som não sabe onde cada coisa está no enquadramento. O Veo 3.1 muda isso com áudio espacial nativo: o modelo gera som junto com o vídeo, ciente do que está perto, do que está distante, do que está abafado e do que se destaca. Uma porta fechando atrás do sujeito soa diferente de uma porta fechando no primeiro plano. O trânsito três andares abaixo é mais quieto e mais difuso do que o trânsito no nível da rua. Este guia explica como a geração de áudio integrada do Veo funciona, como pensar nas três camadas de áudio separadamente e como escrever prompts que produzem profundidade espacial já na primeira geração — com três cenas trabalhadas que você pode adaptar imediatamente.

Como o áudio nativo do Veo 3.1 funciona

O Veo 3.1 gera áudio e vídeo em um único passe integrado. Diferente de um pipeline em dois passos — onde um vídeo mudo é exportado e um modelo de áudio tenta combiná-lo depois — o Veo constrói a paisagem sonora ao mesmo tempo em que constrói os frames. O modelo conhece o layout espacial da cena que está gerando: quais elementos estão próximos à câmera, quais estão ao fundo, quão densa é a ambientação, se as superfícies absorveriam ou refletiriam o som.

O efeito prático é a direcionalidade. Elementos de campo próximo (os passos do sujeito, uma mão tocando uma superfície, respiração) ficam em uma distância aparente diferente dos elementos de fundo (ruído de rua, zumbido ambiental, conversa de multidão). O modelo pode sobrepor esses sons nos níveis relativos adequados porque está construindo a cena espacial, não inferindo-a depois.

Nota

O áudio nativo está disponível nas três variantes do Veo 3.1 no OmniArt: veo-3.1-standard, veo-3.1-fast e veo-3.1-lite. A coerência espacial é consistente entre as variantes; as principais diferenças são velocidade de geração e limite de resolução, não qualidade de áudio.

O Veo 3.1 também oferece saída nativa em 4K, o que importa para o prompting de áudio de uma forma específica: maior fidelidade visual significa mais detalhes ambientais no enquadramento — e mais detalhes para o modelo de áudio responder. Um close-up de uma rua de paralelepípedos molhados de chuva em 4K dá ao modelo muito mais informação do que uma renderização suave em 720p da mesma cena.

As três camadas de áudio para pensar separadamente

A forma mais confiável de obter um resultado útil da geração de áudio do Veo 3.1 é separar mentalmente as instruções de áudio em três camadas antes de escrever uma única palavra do prompt. Cada camada tem características diferentes e responde a padrões de prompt distintos.

Diálogo

O diálogo é a camada mais controlável com precisão. O modelo precisa de informações explícitas: o que está sendo dito, quem está dizendo e como deve ser entregue. Diferente do som ambiente — onde o modelo pode inferir muito a partir do contexto visual — o diálogo não tem um correlato visual que o modelo possa ler. Um personagem andando e falando parece igual esteja recitando uma lista de compras ou proferindo um monólogo.

Escreva a fala palavra por palavra e adicione uma nota de entrega. Um adjetivo de entrega conciso costuma ser mais eficaz do que dois ou três. Notas de entrega que funcionam de forma confiável: warm and unhurried (caloroso e sem pressa), flat and exhausted (plano e exausto), urgent, just above a whisper (urgente, ligeiramente acima de um sussurro), soft but careful (suave mas cuidadoso). Notas que tendem a produzir resultados medianos: empilhar opostos como relaxed but tense ou quiet but intense.

O contexto espacial também importa para o diálogo. Voice close-mic'd, room barely audible produz um resultado diferente de voice slightly distant, reverberant room. O modelo vai combinar o ambiente acústico com o nível de espaço ambiental que você descrever.

Ambiência e ambiente

A ambiência é a camada que o Veo 3.1 trata de forma mais distinta. Como o modelo conhece o layout espacial que está gerando, você pode descrever um ambiente em termos de camadas e distâncias e o modelo realmente age sobre essa descrição.

Um modelo mental útil: pense em três zonas concêntricas — primeiro plano imediato (ao alcance da câmera), plano médio (o espaço de cena ativo) e fundo (o que seria ouvido através de janelas ou na borda do enquadramento). Nomear elementos em cada zona e indicar seus níveis relativos dá ao modelo um alvo de mixagem espacial.

Zona	Exemplos de elementos	Formulação no prompt
Primeiro plano	Tecido roçando, respiração, mãos em uma superfície	"close fabric rustle", "subject's quiet breathing"
Plano médio	Passos, conversa, ferramentas, sons de cozinha	"footsteps on concrete nearby", "clink of cups on the counter"
Fundo	Trânsito de rua, murmúrio de multidão, zumbido ambiental	"traffic muffled behind glass", "distant crowd, barely audible"

Não é necessário preencher as três zonas. Uma cena interior minimalista pode precisar apenas de um elemento no plano médio e um tom de sala sutil. Especificar demais zonas que não deveriam ter som bagunça a mixagem.

Efeitos sonoros (SFX)

SFX são eventos de áudio discretos ligados a momentos visuais específicos: uma porta abrindo, um objeto sendo colocado, um som de notificação, um veículo passando. Como o Veo gera áudio junto com o vídeo, SFX que correspondem a ações visíveis na tela tendem a sincronizar naturalmente — o modelo sabe que uma mão está alcançando um copo antes de fazer contato.

Para SFX que precisam acontecer com precisão, descreva-os como eventos visuais, não como eventos de áudio. "She sets the phone face-down on the desk" instrui tanto a ação visual quanto o som que ela produz; "a clunk as the phone hits the desk" descreve o som de forma abstrata e é mais difícil para o modelo sincronizar.

Quando você precisa de um SFX que não está vinculado a uma ação na tela — um som de fora do enquadramento, uma pontuação ambiental — trate-o como um cue de diálogo: nomeie-o explicitamente e dê contexto espacial. "A car alarm starts briefly in the distance, off-frame right" é mais preciso do que "random street noise includes a car alarm."

Três cenas trabalhadas

Esses exemplos mostram o padrão completo de prompt aplicado a três cenários de áudio diferentes. Cada um demonstra um desafio principal de áudio distinto.

Cena 1: Separação espacial próximo/distante em uma rua

Contexto: Um sujeito caminha por uma rua comercial em direção à entrada de uma loja. O áudio precisa mostrar a diferença espacial entre elementos próximos (os passos do sujeito, respiração ambiente) e o ambiente ao redor (trânsito, a porta da loja).

Prompt:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

O que esperar: Os passos devem ficar no campo próximo, claramente separados do trânsito ao fundo. A transição na porta — de exterior para interior abafado — é o evento espacial para o qual o prompt está direcionando, e a geração integrada do Veo significa que o modelo conhece o bloqueio visual daquele momento.

Ajustes possíveis: Se o trânsito estiver muito alto em relação aos passos, adicione traffic well back, not competing with footsteps. Se a transição pela porta estiver muito abrupta, adicione gradual acoustic shift as the door opens.

Cena 2: Tomada de humor sem diálogo sustentada apenas pela ambiência

Contexto: Uma tomada interior ampla ao entardecer — sem diálogo, sem ação evidente. O áudio deve carregar o registro emocional da cena inteiramente por meio de camadas ambientais.

Prompt:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

O que esperar: Uma mixagem ambiental em camadas onde as pausas entre os eventos são tão audíveis quanto os próprios eventos. O modelo deve tratar quiet enough to hear the silence between sounds como uma instrução de nível de mixagem — mantendo todos os elementos baixos o suficiente para que o tom do ambiente seja perceptível.

Ajustes possíveis: A frase quiet enough to hear the silence pode ser reforçada adicionando each element appearing only briefly, not constant. Adicione a phone buzzing once on a surface, off-frame para introduzir uma pontuação narrativa sem quebrar o clima.

Dica

Cenas de ambiência sem diálogo são onde o áudio espacial do Veo 3.1 demonstra mais claramente sua vantagem sobre modelos de áudio plano. Se o resultado soar como uma única faixa de fundo em loop em vez de um ambiente em camadas, o prompt provavelmente está subespecificado — adicione um segundo ou terceiro elemento nomeado com posicionamento espacial explícito.

Cena 3: Entonação no nível da frase em diálogo

Contexto: Um personagem faz uma única pergunta para a câmera. A entrega precisa de entonação natural no nível da frase — especificamente, a elevação audível no final de uma pergunta — não uma leitura mecanicamente plana.

Prompt:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

O que esperar: A nota de entrega rising slightly on 'find out' e genuinely confused rather than angry deve moldar tanto a forma de onda de áudio quanto o contorno de tom da entrega. As instruções de tom do ambiente (no reverb) estabelecem o espaço acústico para que o diálogo não pareça ter sido gravado em um espaço diferente.

Ajustes possíveis: Se a entrega estiver plana demais, substitua quiet por controlled but emotionally present. Se a entonação da frase não aparecer, separe a nota de entrega da nota emocional: primeiro declare a emoção, depois a instrução específica de entonação.

Antes de regerar: lendo um resultado plano ou mecânico

Nem toda geração precisa de uma revisão de prompt. Alguns resultados precisam apenas de uma duração maior ou de uma seed diferente. Mas existem padrões específicos que indicam que o próprio prompt é o problema:

Resultado plano (sem profundidade espacial): Todos os elementos de áudio ficam na mesma distância aparente, sem distinção de primeiro plano/fundo. Solução: adicione linguagem espacial explícita a pelo menos dois elementos — um marcado como próximo, um como distante ou abafado. O modelo precisa de um contraste para agir.

Diálogo mecânico: A entrega é em ritmo uniforme, sem pausas, sem variação de tom, sem entonação na sílaba final. Solução: escreva uma instrução de entonação concreta no prompt (subindo no final da pergunta, desacelerando em um momento emocional, caindo no fim de uma afirmação). Notas de entrega abstratas como natural ou realistic são genéricas demais para alterar o resultado.

Mixagem sobrecarregada: Muitos elementos de áudio competindo por presença, nenhum se posicionando claramente. Solução: reduza para os dois ou três elementos mais importantes e descreva seus níveis relativos explicitamente. É melhor ter três sons bem posicionados do que sete competindo.

Ambiente acústico errado: O espaço soa reverberante ou seco demais para o visual. Solução: nomeie o caráter acústico diretamente — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

Sintoma	Causa provável	Solução
Sem profundidade espacial	Linguagem de perto/longe ausente	Adicionar qualificadores de distância explícitos a 2+ elementos
Diálogo mecânico	Notas de entrega vagas	Adicionar uma instrução de entonação específica
Mixagem congestionada	Fontes em excesso	Reduzir a 2–3 elementos com níveis relativos
Ambiente acústico errado	Sem contexto acústico fornecido	Nomear explicitamente o caráter do ambiente

Resumo de melhores práticas

O que fazer	Por quê
Separar diálogo, ambiência e SFX na mente antes de escrever	Cada camada responde a padrões de prompt diferentes
Nomear elementos ambientais por zona — primeiro plano, plano médio, fundo	Dá ao modelo um alvo de mixagem espacial, não uma descrição plana
Escrever as falas do diálogo palavra por palavra com uma nota de entrega	O modelo precisa do texto exato e de uma direção tonal
Descrever SFX como eventos visuais, não como eventos de áudio	A sincronização com a ação na tela é mais fácil de modelar do que o tempo abstrato
Usar `no music` quando quiser apenas efeitos	Evita que o sistema adicione automaticamente uma trilha de fundo
Manter o número de elementos nomeados baixo	Três sons bem posicionados superam sete que competem entre si
Nomear o ambiente acústico	O caráter do espaço define como todos os outros elementos se encaixam

Comece no OmniArt

As três variantes do Veo 3.1 — veo-3.1-standard, veo-3.1-fast e veo-3.1-lite — estão disponíveis no workspace de vídeo do OmniArt com o mesmo saldo de créditos e interface de prompt, sem necessidade de conta Google separada ou chave de API. A forma mais rápida de calibrar seus prompts de áudio é começar com um único contraste próximo/distante em uma cena simples, ver o que o modelo produz e depois adicionar camadas uma de cada vez até que a mixagem esteja onde você quer.

Para uma abordagem mais ampla da cinematografia e estrutura de prompts do Veo 3.1, consulte o guia de prompt e cinematografia do Veo 3.1. Se você estiver trabalhando com um modelo que gera áudio em um único passe integrado em um pipeline diferente, os padrões no guia de áudio nativo do Grok Imagine abordam lógica de prompting similar para o sistema de áudio nativo da xAI.

Comece a gerar no OmniArt

Pronto para criar?

Comece a gerar conteúdo incrível com IA

Começar grátis