guideTutoriales y guías8 min de lectura

Cómo escribir prompts para Gemini Omni Flash y vídeos de 10 segundos

Gemini Omni Flash tiene una superficie de prompt inusual: sin parámetro negativo, dos formatos, solo inglés y dos modos de prompting distintos. Aprende a escribir bien ambos.

Equipo OmniArt1 jul 2026

La mayoría de las guías de prompts para vídeo con IA te enseñan a escribir una sola cosa: un párrafo rico y detallado que entregas al modelo una única vez. Gemini Omni Flash rompe esa premisa. Su API para desarrolladores (activa desde el 30 de junio) se articula en torno a dos actos de prompting distintos: la primera generación y, después, una conversación continua de ediciones que reconfiguran una y otra vez el mismo clip. Si escribes para uno e ignoras el otro, dejas la mayor parte del modelo sin aprovechar.

La superficie de prompt de Omni Flash también es inusual por lo que quita. No hay campo de prompt negativo, ni control de temperatura, ni instrucción de sistema, y solo dos formatos de aspecto. No son huecos que haya que sortear a ciegas: cada uno cambia cómo deberías formular un prompt. Esta guía cubre ambos modos y las restricciones que los moldean.

Nota

A fecha del 1 de julio de 2026, Gemini Omni Flash está disponible a través de Google AI Studio, la Gemini API, la app Gemini y Google Flow, pero todavía no dentro del workspace de OmniArt. Las secciones siguientes describen cómo escribir prompts directamente en las propias herramientas de Google; la sección final indica qué hábitos se trasladan a los modelos de vídeo que ya están activos en OmniArt hoy.

Dos modos de prompt, no uno

Cada sesión de Omni Flash tiene dos tipos de prompt, y cada uno recompensa una forma de escribir distinta.

El prompt de primera generación es un briefing completo para un único plano de 10 segundos: sujeto, movimiento, cámara, luz, sonido, estilo. Se comporta como cualquier buen prompt de texto a vídeo o de imagen a vídeo: carga el detalle al principio, sé específico y describe todo el plano de una vez.

La instrucción de edición conversacional es lo contrario. Es corta, nombra exactamente un cambio y da por supuesto que el modelo ya conserva el clip anterior en su contexto. «Haz que la luz sea de hora dorada.» «Cambia el sedán por una pickup.» El modelo aplica el cambio conservando todo lo que no mencionaste, mediante el previous_interaction_id que arrastra el estado de la sesión a lo largo de hasta tres ediciones secuenciales a través de la Interactions API. Si acumulas tres cambios en una sola instrucción de edición, pierdes la precisión que hace que ese modo valga la pena.

El modelo mental: compón en el primer prompt, dirige en los siguientes. Consigue un clip base sólido y luego refínalo como si estuvieras dando indicaciones a un director a mitad de rodaje: una nota cada vez.

Las restricciones de la API que moldean tu redacción

La lista de parámetros de Omni Flash es corta por diseño. Cada omisión tiene una consecuencia para el prompt:

Restricción	Qué significa para el prompt
Sin campo de prompt negativo	Formula las exclusiones dentro del propio prompt: «una calle vacía, sin peatones, sin tráfico» en lugar de una lista negativa aparte
Sin temperature / top_p / instrucción de sistema	No puedes ajustar la varianza ni fijar una regla de estilo persistente: incrusta el tono y el estilo en el texto del prompt cada vez
Formato de aspecto: solo 9:16 o 16:9	Elige la orientación de entrada; no hay opción cuadrada ni panorámica cinematográfica, así que encuadra en vertical u horizontal desde la primera palabra
Audio descrito, nunca subido	No puedes entregarle una pista para que la iguale: describes con palabras el sonido que quieres (ver abajo)
Inglés totalmente soportado; otros idiomas sin probar	Escribe los prompts en inglés para obtener resultados predecibles
Límite fijo de 10 segundos	Una acción clara por generación, no una lista de planos

Advertencia

Omni Flash no admite subir un audio de referencia. No puedes darle una base musical ni una muestra de voz con la que sincronizarse. Genera una pista de audio por defecto, y tu único control son las palabras del prompt, así que el diseño de sonido hay que escribirlo, no adjuntarlo.

Una plantilla para la primera generación

Como 10 segundos dan para un solo plano, los mejores primeros prompts describen un único momento continuo con todas las capas especificadas. Seis casillas cubren casi cualquier plano:

Sujeto — quién o qué aparece en pantalla, descrito de forma concreta
Movimiento — la única acción que se desarrolla a lo largo del clip
Cámara — un único movimiento, no una secuencia («empuje lento hacia dentro», «plano general fijo»)
Iluminación — dirección, calidad, momento del día
Diseño de sonido — el audio que quieres generar, en palabras
Estilo — paleta, época, referencia fílmica, textura

Un ejemplo trabajado:

«Un dripper de café de cerámica para pour-over sobre una encimera de roble claro, con vapor ascendiendo mientras el café oscuro cae en la jarra de cristal de abajo. Empuje lento hacia el goteo. Luz suave de mañana desde una ventana a la izquierda de cámara, cálida y difusa. Sonido: leve chorro de agua, ambiente lejano de cocina, sin música. Paleta editorial apagada, poca profundidad de campo, rodado con un objetivo fijo luminoso.»

Fíjate en que las exclusiones viven dentro de la frase («sin música»), la cámara es un único movimiento y el sonido está detallado. Esa es toda la disciplina.

Edición conversacional: el vocabulario que funciona

Una vez que tienes un clip base, las ediciones son donde Omni Flash se adelanta a los flujos de generar-y-descartar. Mantén cada instrucción con una sola intención y apóyate en un vocabulario de verbos consistente que el modelo lea con claridad:

Reiluminar — «haz que sea hora dorada», «añade una luz de contorno fría desde atrás»
Reemplazar — «cambia el dripper de café por una prensa francesa»
Reestilizar — «haz que parezca película de los años setenta»
Recolorear — «cambia la taza a negro mate»
Retemporizar — «ralentiza el vertido», «deja que el vapor permanezca más tiempo»

Dos reglas mantienen el hilo coherente. Un cambio por turno: el modelo conserva lo que no mencionas, así que una edición de una sola nota es más predecible y más fácil de deshacer volviendo a escribir el prompt. Y construye sobre el lenguaje del turno anterior: reutiliza los sustantivos que estableciste («la taza», «el vertido») para que el modelo se ancle a los mismos elementos en lugar de volver a inferir la escena.

Consejo

La cadena de tres ediciones es un presupuesto, no una sugerencia. Planifica el prompt base para que necesite el menor número de seguimientos posible: una primera generación sólida deja tus turnos de edición para cambios creativos genuinos, no para arreglar cosas que el primer prompt podría haber especificado.

Cómo trabajar con los límites actuales

Algunos límites no se resuelven con el prompt, y conviene escribir teniéndolos en cuenta en lugar de pelearse con ellos:

Límite de 10 segundos. No hay extensión de escena en la API, así que no escribas prompts que impliquen un arco más largo. Diseña un único plano que se sostenga por sí solo.
La consistencia de personaje entre cambios de escena es un punto débil reconocido. Si la semejanza importa, mantén las ediciones dentro de la misma escena en lugar de pedirle al modelo que traslade a un personaje a un nuevo entorno.
Las referencias de vídeo de más de 3 segundos no se procesan por completo. Mantén cualquier clip de referencia corto y al grano.
Sin referenciado de varios vídeos y sin edición de voz: ambos no están soportados, así que planifica esos pasos en una herramienta aparte, no en el prompt.

Ninguno de estos límites descalifica una herramienta de iteración rápida en formato corto. Solo significan que Omni Flash recompensa los prompts acotados a lo que hace bien: un plano breve y ajustado, refinado de forma conversacional.

Qué se traslada a OmniArt hoy

Omni Flash aún no está en el workspace de OmniArt, pero casi todos los hábitos anteriores se trasladan a los modelos de vídeo que sí lo están, porque la disciplina de fondo (un plano claro, la especificidad frente a la sopa de palabras clave, el sonido escrito dentro del prompt) es independiente del modelo.

La generación guiada por referencias se corresponde directamente con Seedance 2.0, activo en OmniArt, que acepta hasta nueve imágenes, tres vídeos y tres archivos de audio ligados a roles con la sintaxis @image1 / @video1: la misma idea de «componer a partir de assets», con más entradas de las que ofrece Omni Flash.
El lenguaje de cámara cinematográfico se corresponde con Veo 3.1, que interpreta con contención verbos de movimiento como «drift», «glide» y «dolly in».
La plantilla de seis casillas (sujeto, movimiento, cámara, luz, sonido, estilo) es el mismo esqueleto que produce resultados limpios en cada modelo de vídeo del workspace.

Abre el workspace de vídeo en OmniArt, elige el modelo que encaje con el plano y escribe el primer prompt como un único plano completo. Cuando Omni Flash llegue, el flujo de trabajo de dos modos anterior es la parte que añadirás; el oficio del prompt ya es el mismo.

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis