Veo 3.1 audio espacial: mejores prácticas para un sonido que encaje con el plano
Veo 3.1 genera diálogo, ambiente y SFX junto con el vídeo, con verdadera profundidad direccional. Aprende a escribir prompts para cada capa de audio de forma deliberada para que el sonido encaje con el plano en OmniArt.

La mayoría del audio en vídeos generados con IA suena colocado en lugar de presente. Un clip de un mercado concurrido recibe ruido de multitud; un clip de bosque recibe canto de pájaros. Técnicamente correcto y, sin embargo, ninguno de los dos resulta convincente, porque el sonido no sabe dónde está cada cosa en el plano. Veo 3.1 cambia esto con audio espacial nativo: el modelo genera sonido junto con el vídeo, consciente de qué está cerca, qué está lejos, qué está amortiguado y qué se destaca. Una puerta cerrándose detrás del sujeto suena diferente a una puerta cerrándose en el primer plano. El tráfico tres pisos abajo es más silencioso y difuso que el tráfico a nivel de calle. Esta guía explica cómo funciona la generación de audio integrada de Veo, cómo pensar en las tres capas de audio por separado y cómo escribir prompts que produzcan profundidad espacial desde la primera generación, con tres escenas trabajadas que puedes adaptar de inmediato.
Cómo funciona el audio nativo de Veo 3.1
Veo 3.1 genera audio y vídeo en un único pase integrado. A diferencia de un pipeline en dos pasos — donde se exporta un vídeo sin sonido y un modelo de audio intenta después sincronizarse — Veo construye el paisaje sonoro al mismo tiempo que construye los fotogramas. El modelo conoce la disposición espacial de la escena que está generando: qué elementos están cerca de la cámara, cuáles están al fondo, qué tan densa es la ambientación, si las superficies absorberían o reflejarían el sonido.
El efecto práctico es la direccionalidad. Los elementos de campo cercano (los pasos del sujeto, una mano tocando una superficie, la respiración) se perciben a una distancia aparente diferente a la de los elementos de fondo (ruido de calle, zumbido ambiental, cháchara de multitud). El modelo puede superponer estos sonidos en los niveles relativos adecuados porque está construyendo la escena espacial, no infiriéndola a posteriori.
Nota
Veo 3.1 también ofrece salida nativa en 4K, lo que importa para el prompting de audio de una manera específica: mayor fidelidad visual significa más detalles ambientales en el plano — y más detalles a los que el modelo de audio puede responder. Un primer plano en 4K de una calle adoquinada mojada por la lluvia le da al modelo mucho más con lo que trabajar que un render suave en 720p de la misma escena.
Las tres capas de audio que hay que pensar por separado
La forma más fiable de obtener un resultado útil de la generación de audio de Veo 3.1 es separar mentalmente las instrucciones de audio en tres capas antes de escribir una sola palabra del prompt. Cada capa tiene características diferentes y responde a patrones de prompt distintos.
Diálogo
El diálogo es la capa más controlable con precisión. El modelo necesita información explícita: qué se está diciendo, quién lo dice y cómo debe entregarse. A diferencia del sonido ambiental — donde el modelo puede inferir mucho del contexto visual — el diálogo no tiene un correlato visual que el modelo pueda leer. Un personaje andando y hablando tiene el mismo aspecto tanto si recita una lista de la compra como si pronuncia un monólogo.
Escribe la frase textualmente y luego añade una nota de entrega. Un adjetivo de entrega conciso suele ser más eficaz que dos o tres. Notas de entrega que funcionan de forma fiable: warm and unhurried (cálido y pausado), flat and exhausted (plano y agotado), urgent, just above a whisper (urgente, justo por encima de un susurro), soft but careful (suave pero cuidadoso). Notas que tienden a producir resultados promediados: apilar opuestos como relaxed but tense o quiet but intense.
El contexto espacial también importa para el diálogo. Voice close-mic'd, room barely audible produce un resultado diferente a voice slightly distant, reverberant room. El modelo ajustará el entorno acústico al nivel de espacio ambiental que describes.
Ambiente y entorno
El ambiente es la capa que Veo 3.1 trata de forma más distintiva. Dado que el modelo conoce la disposición espacial que está generando, puedes describir un entorno en términos de capas y distancias y el modelo puede actuar realmente sobre esa descripción.
Un modelo mental útil: piensa en tres zonas concéntricas — primer plano inmediato (al alcance de la cámara), plano medio (el espacio de escena activo) y fondo (lo que se escucharía a través de ventanas o en el borde del plano). Nombrar elementos en cada zona e indicar sus niveles relativos le da al modelo un objetivo de mezcla espacial.
| Zona | Elementos de ejemplo | Expresión en el prompt |
|---|---|---|
| Primer plano | Roce de tela, respiración, manos sobre una superficie | "close fabric rustle", "subject's quiet breathing" |
| Plano medio | Pasos, conversación, herramientas, sonidos de cocina | "footsteps on concrete nearby", "clink of cups on the counter" |
| Fondo | Tráfico de calle, murmullo de multitud, zumbido ambiental | "traffic muffled behind glass", "distant crowd, barely audible" |
No es necesario rellenar las tres zonas. Una escena interior minimalista puede necesitar solo un elemento en el plano medio y un tono de sala sutil. Especificar en exceso zonas que no deberían tener sonido ensucia la mezcla.
Efectos de sonido (SFX)
Los SFX son eventos de audio discretos vinculados a momentos visuales concretos: una puerta abriéndose, un objeto siendo depositado, un sonido de notificación, un vehículo pasando. Dado que Veo genera audio junto con el vídeo, los SFX que corresponden a acciones visibles en pantalla tienden a sincronizarse naturalmente — el modelo sabe que una mano está alcanzando un vaso antes de que haga contacto.
Para los SFX que necesitan encajar con precisión, descríbelos como eventos visuales, no como eventos de audio. "She sets the phone face-down on the desk" instruye tanto la acción visual como el sonido que produce; "a clunk as the phone hits the desk" describe el sonido de forma abstracta y es más difícil que el modelo lo sincronice.
Cuando necesitas un SFX que no está vinculado a una acción en pantalla — un sonido de fuera del plano, una puntuación ambiental — trátalo como si fuera una indicación de diálogo: nómbralo explícitamente y dale contexto espacial. "A car alarm starts briefly in the distance, off-frame right" es más preciso que "random street noise includes a car alarm."
Tres escenas trabajadas
Estos ejemplos muestran el patrón completo de prompt aplicado a tres escenarios de audio diferentes. Cada uno demuestra un desafío principal de audio distinto.
Escena 1: Separación espacial cerca/lejos en una calle
Contexto: Un sujeto camina por una calle comercial hacia la entrada de una tienda. El audio debe mostrar la diferencia espacial entre los elementos cercanos (los pasos del sujeto, respiración ambiental) y el entorno que lo rodea (tráfico, la puerta de la tienda).
Prompt:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
Qué esperar: Los pasos deben situarse en el campo cercano, claramente separados del tráfico de fondo. La transición en la puerta — del exterior al interior amortiguado — es el evento espacial hacia el que apunta el prompt, y la generación integrada de Veo significa que el modelo conoce el bloqueo visual de ese momento.
Palancas de ajuste: Si el tráfico está demasiado alto en relación a los pasos, añade traffic well back, not competing with footsteps. Si la transición en la puerta es demasiado abrupta, añade gradual acoustic shift as the door opens.
Escena 2: Plano de atmósfera sin diálogo sustentado solo por el ambiente
Contexto: Un plano interior amplio al atardecer — sin diálogo, sin acción evidente. El audio debe cargar el registro emocional de la escena únicamente a través de capas ambientales.
Prompt:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
Qué esperar: Una mezcla ambiental en capas donde las pausas entre eventos son tan audibles como los propios eventos. El modelo debe tratar quiet enough to hear the silence between sounds como una instrucción de nivel de mezcla, manteniendo todos los elementos suficientemente bajos para que el tono de la sala sea perceptible.
Palancas de ajuste: La frase quiet enough to hear the silence puede reforzarse añadiendo each element appearing only briefly, not constant. Añade a phone buzzing once on a surface, off-frame para introducir una puntuación narrativa sin romper el ambiente.
Consejo
Escena 3: Entonación a nivel de frase en el diálogo
Contexto: Un personaje hace una única pregunta a cámara. La entrega necesita entonación natural a nivel de frase — específicamente, la elevación audible al final de una pregunta — no una lectura mecánicamente plana.
Prompt:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
Qué esperar: La nota de entrega rising slightly on 'find out' y genuinely confused rather than angry debe moldear tanto la forma de onda de audio como el contorno de tono de la entrega. Las instrucciones de tono de sala (no reverb) establecen el entorno acústico para que el diálogo no suene como si se hubiera grabado en un espacio diferente.
Palancas de ajuste: Si la entrega es demasiado plana, reemplaza quiet por controlled but emotionally present. Si la entonación de la frase no aparece, separa la nota de entrega de la nota emocional: primero indica la emoción, luego la instrucción específica de entonación.
Antes de regenerar: leyendo un resultado plano o mecánico
No toda generación necesita una revisión del prompt. Algunos resultados solo necesitan una duración mayor o una seed diferente. Pero hay patrones concretos que indican que el propio prompt es el problema:
Resultado plano (sin profundidad espacial): Todos los elementos de audio están en la misma distancia aparente sin distinción de primer plano/fondo. Solución: añade lenguaje espacial explícito a al menos dos elementos — uno marcado como cercano, uno como distante o amortiguado. El modelo necesita un contraste para actuar.
Diálogo mecánico: La entrega es a ritmo uniforme sin pausas, sin variación de tono, sin entonación en la sílaba final. Solución: escribe una instrucción de entonación concreta en el prompt (subiendo al final de la pregunta, ralentizando en un momento emocional, bajando al cierre de una afirmación). Las notas de entrega abstractas como natural o realistic son demasiado vagas para cambiar el resultado.
Mezcla saturada: Demasiados elementos de audio compitiendo por presencia, ninguno se posiciona claramente. Solución: reduce a los dos o tres elementos más importantes y describe sus niveles relativos explícitamente. Es mejor tener tres sonidos bien posicionados que siete compitiendo.
Entorno acústico incorrecto: La sala suena demasiado reverberante o demasiado seca para el visual. Solución: nombra el carácter acústico directamente — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.
| Síntoma | Causa probable | Solución |
|---|---|---|
| Sin profundidad espacial | Falta lenguaje de cerca/lejos | Añadir calificadores de distancia explícitos a 2+ elementos |
| Diálogo mecánico | Notas de entrega vagas | Añadir una instrucción de entonación específica |
| Mezcla saturada | Demasiadas fuentes | Reducir a 2–3 elementos con niveles relativos |
| Entorno acústico incorrecto | Sin contexto acústico proporcionado | Nombrar explícitamente el carácter de la sala |
Resumen de mejores prácticas
| Qué hacer | Por qué |
|---|---|
| Separar diálogo, ambiente y SFX mentalmente antes de escribir | Cada capa responde a patrones de prompt diferentes |
| Nombrar elementos ambientales por zona — primer plano, plano medio, fondo | Le da al modelo un objetivo de mezcla espacial, no una descripción plana |
| Escribir las frases de diálogo textualmente con una nota de entrega | El modelo necesita el texto exacto y una dirección tonal |
| Describir los SFX como eventos visuales, no como eventos de audio | La sincronización con la acción en pantalla es más fácil de modelar que el tiempo abstracto |
Usar no music cuando solo quieras efectos | Evita que la puntuación automática añada una pista de fondo |
| Mantener bajo el número de elementos nombrados | Tres sonidos bien posicionados superan a siete que compiten |
| Nombrar el entorno acústico | El carácter de la sala determina cómo se sitúan todos los demás elementos |
Empieza en OmniArt
Las tres variantes de Veo 3.1 — veo-3.1-standard, veo-3.1-fast y veo-3.1-lite — están disponibles en el espacio de trabajo de vídeo de OmniArt con el mismo saldo de créditos e interfaz de prompt, sin necesidad de cuenta de Google separada ni clave de API. La forma más rápida de calibrar tus prompts de audio es comenzar con un único contraste cerca/lejos en una escena simple, ver qué produce el modelo y luego añadir capas de una en una hasta que la mezcla esté donde quieres.
Para un tratamiento más amplio de la cinematografía y la estructura de prompts de Veo 3.1, consulta la guía de prompt y cinematografía de Veo 3.1. Si estás trabajando con un modelo que genera audio en un único pase integrado en un pipeline diferente, los patrones de la guía de audio nativo de Grok Imagine cubren una lógica de prompting similar para el sistema de audio nativo de xAI.
¿Listo para crear?
Empieza a generar contenido increíble con IA