guideTutoriales y guías13 min de lectura

Veo 3.1 audio espacial: mejores prácticas para un sonido que encaje con el plano

Veo 3.1 genera diálogo, ambiente y SFX junto con el vídeo, con verdadera profundidad direccional. Aprende a escribir prompts para cada capa de audio de forma deliberada para que el sonido encaje con el plano en OmniArt.

Equipo OmniArt
Veo 3.1 audio espacial: mejores prácticas para un sonido que encaje con el plano

La mayoría del audio en vídeos generados con IA suena colocado en lugar de presente. Un clip de un mercado concurrido recibe ruido de multitud; un clip de bosque recibe canto de pájaros. Técnicamente correcto y, sin embargo, ninguno de los dos resulta convincente, porque el sonido no sabe dónde está cada cosa en el plano. Veo 3.1 cambia esto con audio espacial nativo: el modelo genera sonido junto con el vídeo, consciente de qué está cerca, qué está lejos, qué está amortiguado y qué se destaca. Una puerta cerrándose detrás del sujeto suena diferente a una puerta cerrándose en el primer plano. El tráfico tres pisos abajo es más silencioso y difuso que el tráfico a nivel de calle. Esta guía explica cómo funciona la generación de audio integrada de Veo, cómo pensar en las tres capas de audio por separado y cómo escribir prompts que produzcan profundidad espacial desde la primera generación, con tres escenas trabajadas que puedes adaptar de inmediato.

Cómo funciona el audio nativo de Veo 3.1

Veo 3.1 genera audio y vídeo en un único pase integrado. A diferencia de un pipeline en dos pasos — donde se exporta un vídeo sin sonido y un modelo de audio intenta después sincronizarse — Veo construye el paisaje sonoro al mismo tiempo que construye los fotogramas. El modelo conoce la disposición espacial de la escena que está generando: qué elementos están cerca de la cámara, cuáles están al fondo, qué tan densa es la ambientación, si las superficies absorberían o reflejarían el sonido.

El efecto práctico es la direccionalidad. Los elementos de campo cercano (los pasos del sujeto, una mano tocando una superficie, la respiración) se perciben a una distancia aparente diferente a la de los elementos de fondo (ruido de calle, zumbido ambiental, cháchara de multitud). El modelo puede superponer estos sonidos en los niveles relativos adecuados porque está construyendo la escena espacial, no infiriéndola a posteriori.

Nota

El audio nativo está disponible en las tres variantes de Veo 3.1 en OmniArt: veo-3.1-standard, veo-3.1-fast y veo-3.1-lite. La coherencia espacial es consistente entre variantes; las principales diferencias son la velocidad de generación y el límite de resolución, no la calidad de audio.

Veo 3.1 también ofrece salida nativa en 4K, lo que importa para el prompting de audio de una manera específica: mayor fidelidad visual significa más detalles ambientales en el plano — y más detalles a los que el modelo de audio puede responder. Un primer plano en 4K de una calle adoquinada mojada por la lluvia le da al modelo mucho más con lo que trabajar que un render suave en 720p de la misma escena.

Las tres capas de audio que hay que pensar por separado

La forma más fiable de obtener un resultado útil de la generación de audio de Veo 3.1 es separar mentalmente las instrucciones de audio en tres capas antes de escribir una sola palabra del prompt. Cada capa tiene características diferentes y responde a patrones de prompt distintos.

El diálogo es la capa más controlable con precisión. El modelo necesita información explícita: qué se está diciendo, quién lo dice y cómo debe entregarse. A diferencia del sonido ambiental — donde el modelo puede inferir mucho del contexto visual — el diálogo no tiene un correlato visual que el modelo pueda leer. Un personaje andando y hablando tiene el mismo aspecto tanto si recita una lista de la compra como si pronuncia un monólogo.

Escribe la frase textualmente y luego añade una nota de entrega. Un adjetivo de entrega conciso suele ser más eficaz que dos o tres. Notas de entrega que funcionan de forma fiable: warm and unhurried (cálido y pausado), flat and exhausted (plano y agotado), urgent, just above a whisper (urgente, justo por encima de un susurro), soft but careful (suave pero cuidadoso). Notas que tienden a producir resultados promediados: apilar opuestos como relaxed but tense o quiet but intense.

El contexto espacial también importa para el diálogo. Voice close-mic'd, room barely audible produce un resultado diferente a voice slightly distant, reverberant room. El modelo ajustará el entorno acústico al nivel de espacio ambiental que describes.

Ambiente y entorno

El ambiente es la capa que Veo 3.1 trata de forma más distintiva. Dado que el modelo conoce la disposición espacial que está generando, puedes describir un entorno en términos de capas y distancias y el modelo puede actuar realmente sobre esa descripción.

Un modelo mental útil: piensa en tres zonas concéntricas — primer plano inmediato (al alcance de la cámara), plano medio (el espacio de escena activo) y fondo (lo que se escucharía a través de ventanas o en el borde del plano). Nombrar elementos en cada zona e indicar sus niveles relativos le da al modelo un objetivo de mezcla espacial.

ZonaElementos de ejemploExpresión en el prompt
Primer planoRoce de tela, respiración, manos sobre una superficie"close fabric rustle", "subject's quiet breathing"
Plano medioPasos, conversación, herramientas, sonidos de cocina"footsteps on concrete nearby", "clink of cups on the counter"
FondoTráfico de calle, murmullo de multitud, zumbido ambiental"traffic muffled behind glass", "distant crowd, barely audible"

No es necesario rellenar las tres zonas. Una escena interior minimalista puede necesitar solo un elemento en el plano medio y un tono de sala sutil. Especificar en exceso zonas que no deberían tener sonido ensucia la mezcla.

Efectos de sonido (SFX)

Los SFX son eventos de audio discretos vinculados a momentos visuales concretos: una puerta abriéndose, un objeto siendo depositado, un sonido de notificación, un vehículo pasando. Dado que Veo genera audio junto con el vídeo, los SFX que corresponden a acciones visibles en pantalla tienden a sincronizarse naturalmente — el modelo sabe que una mano está alcanzando un vaso antes de que haga contacto.

Para los SFX que necesitan encajar con precisión, descríbelos como eventos visuales, no como eventos de audio. "She sets the phone face-down on the desk" instruye tanto la acción visual como el sonido que produce; "a clunk as the phone hits the desk" describe el sonido de forma abstracta y es más difícil que el modelo lo sincronice.

Cuando necesitas un SFX que no está vinculado a una acción en pantalla — un sonido de fuera del plano, una puntuación ambiental — trátalo como si fuera una indicación de diálogo: nómbralo explícitamente y dale contexto espacial. "A car alarm starts briefly in the distance, off-frame right" es más preciso que "random street noise includes a car alarm."

Tres escenas trabajadas

Estos ejemplos muestran el patrón completo de prompt aplicado a tres escenarios de audio diferentes. Cada uno demuestra un desafío principal de audio distinto.

Escena 1: Separación espacial cerca/lejos en una calle

Contexto: Un sujeto camina por una calle comercial hacia la entrada de una tienda. El audio debe mostrar la diferencia espacial entre los elementos cercanos (los pasos del sujeto, respiración ambiental) y el entorno que lo rodea (tráfico, la puerta de la tienda).

Prompt:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

Qué esperar: Los pasos deben situarse en el campo cercano, claramente separados del tráfico de fondo. La transición en la puerta — del exterior al interior amortiguado — es el evento espacial hacia el que apunta el prompt, y la generación integrada de Veo significa que el modelo conoce el bloqueo visual de ese momento.

Palancas de ajuste: Si el tráfico está demasiado alto en relación a los pasos, añade traffic well back, not competing with footsteps. Si la transición en la puerta es demasiado abrupta, añade gradual acoustic shift as the door opens.


Escena 2: Plano de atmósfera sin diálogo sustentado solo por el ambiente

Contexto: Un plano interior amplio al atardecer — sin diálogo, sin acción evidente. El audio debe cargar el registro emocional de la escena únicamente a través de capas ambientales.

Prompt:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

Qué esperar: Una mezcla ambiental en capas donde las pausas entre eventos son tan audibles como los propios eventos. El modelo debe tratar quiet enough to hear the silence between sounds como una instrucción de nivel de mezcla, manteniendo todos los elementos suficientemente bajos para que el tono de la sala sea perceptible.

Palancas de ajuste: La frase quiet enough to hear the silence puede reforzarse añadiendo each element appearing only briefly, not constant. Añade a phone buzzing once on a surface, off-frame para introducir una puntuación narrativa sin romper el ambiente.

Consejo

Las escenas de ambiente sin diálogo son donde el audio espacial de Veo 3.1 demuestra más claramente su ventaja sobre los modelos de audio plano. Si el resultado suena como una única pista de fondo en bucle en lugar de un ambiente en capas, el prompt probablemente está subespecificado — añade un segundo o tercer elemento nombrado con posicionamiento espacial explícito.

Contexto: Un personaje hace una única pregunta a cámara. La entrega necesita entonación natural a nivel de frase — específicamente, la elevación audible al final de una pregunta — no una lectura mecánicamente plana.

Prompt:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

Qué esperar: La nota de entrega rising slightly on 'find out' y genuinely confused rather than angry debe moldear tanto la forma de onda de audio como el contorno de tono de la entrega. Las instrucciones de tono de sala (no reverb) establecen el entorno acústico para que el diálogo no suene como si se hubiera grabado en un espacio diferente.

Palancas de ajuste: Si la entrega es demasiado plana, reemplaza quiet por controlled but emotionally present. Si la entonación de la frase no aparece, separa la nota de entrega de la nota emocional: primero indica la emoción, luego la instrucción específica de entonación.


Antes de regenerar: leyendo un resultado plano o mecánico

No toda generación necesita una revisión del prompt. Algunos resultados solo necesitan una duración mayor o una seed diferente. Pero hay patrones concretos que indican que el propio prompt es el problema:

Resultado plano (sin profundidad espacial): Todos los elementos de audio están en la misma distancia aparente sin distinción de primer plano/fondo. Solución: añade lenguaje espacial explícito a al menos dos elementos — uno marcado como cercano, uno como distante o amortiguado. El modelo necesita un contraste para actuar.

Diálogo mecánico: La entrega es a ritmo uniforme sin pausas, sin variación de tono, sin entonación en la sílaba final. Solución: escribe una instrucción de entonación concreta en el prompt (subiendo al final de la pregunta, ralentizando en un momento emocional, bajando al cierre de una afirmación). Las notas de entrega abstractas como natural o realistic son demasiado vagas para cambiar el resultado.

Mezcla saturada: Demasiados elementos de audio compitiendo por presencia, ninguno se posiciona claramente. Solución: reduce a los dos o tres elementos más importantes y describe sus niveles relativos explícitamente. Es mejor tener tres sonidos bien posicionados que siete compitiendo.

Entorno acústico incorrecto: La sala suena demasiado reverberante o demasiado seca para el visual. Solución: nombra el carácter acústico directamente — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

SíntomaCausa probableSolución
Sin profundidad espacialFalta lenguaje de cerca/lejosAñadir calificadores de distancia explícitos a 2+ elementos
Diálogo mecánicoNotas de entrega vagasAñadir una instrucción de entonación específica
Mezcla saturadaDemasiadas fuentesReducir a 2–3 elementos con niveles relativos
Entorno acústico incorrectoSin contexto acústico proporcionadoNombrar explícitamente el carácter de la sala

Resumen de mejores prácticas

Qué hacerPor qué
Separar diálogo, ambiente y SFX mentalmente antes de escribirCada capa responde a patrones de prompt diferentes
Nombrar elementos ambientales por zona — primer plano, plano medio, fondoLe da al modelo un objetivo de mezcla espacial, no una descripción plana
Escribir las frases de diálogo textualmente con una nota de entregaEl modelo necesita el texto exacto y una dirección tonal
Describir los SFX como eventos visuales, no como eventos de audioLa sincronización con la acción en pantalla es más fácil de modelar que el tiempo abstracto
Usar no music cuando solo quieras efectosEvita que la puntuación automática añada una pista de fondo
Mantener bajo el número de elementos nombradosTres sonidos bien posicionados superan a siete que compiten
Nombrar el entorno acústicoEl carácter de la sala determina cómo se sitúan todos los demás elementos

Empieza en OmniArt

Las tres variantes de Veo 3.1 — veo-3.1-standard, veo-3.1-fast y veo-3.1-lite — están disponibles en el espacio de trabajo de vídeo de OmniArt con el mismo saldo de créditos e interfaz de prompt, sin necesidad de cuenta de Google separada ni clave de API. La forma más rápida de calibrar tus prompts de audio es comenzar con un único contraste cerca/lejos en una escena simple, ver qué produce el modelo y luego añadir capas de una en una hasta que la mezcla esté donde quieres.

Para un tratamiento más amplio de la cinematografía y la estructura de prompts de Veo 3.1, consulta la guía de prompt y cinematografía de Veo 3.1. Si estás trabajando con un modelo que genera audio en un único pase integrado en un pipeline diferente, los patrones de la guía de audio nativo de Grok Imagine cubren una lógica de prompting similar para el sistema de audio nativo de xAI.

Empieza a generar en OmniArt

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis