industryModelos e insights7 min de lectura

Entrada any-to-any de Gemini Omni Flash: qué hace en realidad

Lo omnimodal es el gran reclamo de Gemini Omni Flash, pero la API que se ha lanzado es más estrecha que el marketing. Esto es lo que la entrada any-to-any cambia de verdad en el briefing.

Equipo OmniArt1 jul 2026

La palabra que cargaba con más peso en el lanzamiento de Gemini Omni Flash era «Omni»: la promesa de un único modelo al que puedes alimentar con texto, imágenes, audio y vídeo a la vez, en un mismo prompt. Es un reclamo genuinamente distinto al de los modelos de vídeo de entrada única que lo precedieron, y es la razón por la que el modelo se gana su nombre. Pero la versión que se lanzó en la API para desarrolladores es más estrecha que el planteamiento de la keynote, y la diferencia importa si estás planificando trabajo real en torno a ella.

Este artículo separa lo que la entrada any-to-any te aporta realmente hoy de lo que todavía es aspiracional, y luego llega al punto más útil: cómo la entrada multimodal cambia por completo la forma de escribir un briefing.

Qué significa «any-to-any» en realidad

La mayoría de los modelos de vídeo aceptan un solo tipo de guía. Escribes texto, o aportas una única imagen de referencia, y el modelo trabaja a partir de ahí. La entrada any-to-any significa que una misma gramática de prompt acepta varias modalidades juntas y devuelve un resultado coherente que las respeta todas: un fotograma de referencia para el aspecto, un clip corto para el movimiento y una indicación escrita para todo lo demás, combinados, no en disyuntiva.

El cambio va de describir un plano con palabras a componerlo a partir de assets. Esa es la capacidad real, y es la razón por la que «omnimodal» no es puro marketing. La pregunta es cuánto de ello está activo.

El reclamo frente a la API que se ha lanzado

Esta es la matriz honesta para la preview actual, extraída directamente de la propia documentación de la API:

Entrada	Estado	Notas
Prompt de texto	Soportado	La columna vertebral de toda generación
Imagen de referencia	Soportado	Texto a vídeo, imagen a vídeo y referencia de sujeto
Vídeo de referencia	Soportado, con matiz	Las referencias de más de 3 segundos no se procesan por completo
Audio de referencia	No soportado	No puedes subir un sonido o una voz para que el modelo los iguale
Varias referencias de vídeo	No soportado	Un clip de referencia por generación
Prompts en idiomas distintos del inglés	Sin probar	El inglés es el único idioma totalmente soportado

Advertencia

El hueco del audio es el que con más probabilidad desbaratará un plan. Omni Flash genera una pista de audio por defecto, pero «any-to-any» no incluye entregarle una base musical, una locución o una grabación ambiente con la que sincronizarse. El audio es una salida que diriges con palabras, no una entrada que aportas.

Así que la lectura precisa: any-to-any hoy es texto + imagen + vídeo de entrada, vídeo (con audio generado) de salida. La mitad de audio de entrada de la promesa omnimodal está retenida deliberadamente, en línea con las funciones de edición de voz en vídeo y de avatar que Google mantuvo fuera del lanzamiento por motivos de seguridad. Es un cambio de capacidad real frente a los modelos de entrada única; simplemente todavía no es el cuadro completo de any-to-any-to-any que el nombre insinúa.

Qué cambia la entrada multimodal en el briefing

Una vez que compones a partir de assets en lugar de describir en prosa, el propio briefing cambia de forma. Tres entradas cumplen funciones distintas, y la habilidad está en asignar cada una a aquello para lo que es mejor:

La imagen de referencia aporta el aspecto: el sujeto, la paleta, el encuadre que ya te gusta.
El vídeo de referencia aporta el movimiento: un movimiento de cámara o una acción que quieres que se replique.
El texto aporta la intención y todo lo que los assets no muestran ya: la atmósfera, los cambios, aquello que no está en ninguna de las dos referencias.

El efecto práctico es que dejas de intentar traducir una imagen a adjetivos. En lugar de escribir «un primer plano cálido y de poca profundidad con un empuje lento hacia dentro», aportas el fotograma que ya se ve así y el clip que ya se mueve así, y gastas tus palabras en lo que es nuevo. Para cualquiera que haya peleado por describir una estética concreta con texto, ese es el desbloqueo del flujo de trabajo.

Los cuatro modos de tarea, y cómo se combinan

La API expone cuatro tipos de task, y se corresponden con limpieza con la idea de componer a partir de assets:

text_to_video — descripción pura, sin assets. El recurso cuando partes de cero.
image_to_video — animar una imagen fija. El punto de entrada más común: una imagen sólida se convierte en el primer fotograma del movimiento.
reference_to_video — llevar un sujeto o estilo desde una referencia a una nueva generación.
edit — el modo conversacional y con estado que revisa el clip anterior conservando lo que no cambiaste.

El flujo previsto los encadena: genera o anima una base con uno de los tres primeros, luego pasa a edit y refina de forma conversacional. Es la misma forma que el propio emparejamiento de Google de Nano Banana 2 Lite con Omni Flash —editar una imagen fija, luego animarla— extendido a lo largo de varios turnos.

El matiz del audio, en detalle

Como el audio no se puede aportar, el diseño de sonido se convierte en una tarea de escritura. El modelo produce diálogo, efectos y ambiente a partir de lo que describe tu prompt: «lluvia suave sobre una ventana, sin música» o «un único clic suave, luego tono de sala». Obtienes un control significativo, pero es un control descriptivo, y eso significa dos cosas para la planificación:

Si tu proyecto necesita que el vídeo generado se ajuste a una pista existente —una canción con licencia, un sting de marca, una locución grabada—, esa sincronización ocurre en un paso de audio aparte, no dentro de Omni Flash.
Si solo necesitas un sonido original que encaje, describirlo bien en el prompt te lleva hasta ahí sin necesidad de subir nada.

Dónde encaja OmniArt hoy

El flujo de componer a partir de assets no es algo para lo que tengas que esperar a Omni Flash: ya funciona en los modelos activos en el workspace de vídeo de OmniArt, y en un aspecto van más lejos.

Seedance 2.0, disponible en OmniArt ahora mismo, se construyó exactamente en torno a esta idea: acepta hasta nueve imágenes, tres clips de vídeo y —lo más notable— tres archivos de audio en un solo prompt, cada uno ligado a un rol con la sintaxis @image1 / @video1 / @audio1. Eso incluye la entrada de audio de referencia que Omni Flash retiene. Si tu briefing depende de alimentar al modelo con un sonido concreto para trabajar, esa vía existe hoy.

Y la dirección del camino es clara en todo el sector: Seedance 2.5, anunciado en junio, lleva esa misma arquitectura de referencias hasta 50 entradas multimodales a la vez. La entrada any-to-any no es la historia de un único modelo: es hacia donde se dirige el vídeo con IA dirigido. Omni Flash le puso nombre a la idea; el workspace ya te deja practicarla.

Abre el workspace de vídeo en OmniArt, reúne tu conjunto de referencias y deja que los assets aporten el aspecto y el movimiento mientras tus palabras aportan la intención. Ese es el briefing any-to-any, disponible ahora.

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis