guideModelos e insights14 min de lectura

De foto de producto a anuncio en movimiento: mejores prácticas de Grok Imagine 1.5 para imagen a video

El modo más potente de Grok Imagine 1.5 es convertir una foto de producto limpia en un anuncio en movimiento. Reglas para la imagen fuente, fórmula de prompt en cinco partes, flujo de trabajo 480p-720p y cuatro ejemplos prácticos en OmniArt.

Equipo OmniArt10 jun 2026

El modo de imagen a video de Grok Imagine 1.5 tiene una tarea que realiza excepcionalmente bien: tomar una foto limpia de un producto y convertirla en un clip publicitario en movimiento sin necesidad de reconstruir el producto a partir de una descripción en texto. El motor Aurora ancla la posición del sujeto, la iluminación y la trayectoria de la cámara a partir de tu imagen fuente, de modo que el deportivo mantiene el tono correcto de blanco y la esfera del reloj sigue siendo legible, algo que la generación de video a partir de texto simplemente no puede garantizar para un producto que realmente vendes.

Esta guía cubre los tres pilares fundamentales que determinan si un clip de Grok Imagine 1.5 en modo imagen a video es utilizable en el primer intento: calidad de la imagen fuente, construcción del prompt y el flujo de trabajo de resolución de 480p a 720p. Cuatro ejemplos prácticos — un deportivo, un reloj, un bolso y un producto de belleza — muestran cada pilar aplicado de principio a fin.

Para el flujo de trabajo completo de anuncios de comercio electrónico que cubre la selección de modelos, formatos de plataforma y audio, consulta Convierte fotos de productos en anuncios de video con OmniArt. Este artículo se centra exclusivamente en obtener los mejores resultados de Grok Imagine 1.5.

Lo que Grok Imagine 1.5 aporta a imagen a video

Especificación	Valor
Resolución	Hasta 720p
Fotogramas por segundo	24 fps
Duración	1–15 segundos
Audio nativo	Sí — generado en el mismo proceso de inferencia
Base de imagen	FLUX.1 (Black Forest Labs)
Ranking en la arena	1.º en el Image-to-Video Arena (+52 Elo sobre la versión 1.0)

La base FLUX.1 es la razón por la que el prompting en lenguaje natural funciona aquí. Describes la toma como lo harías al briefar a un operador de cámara, no apilando palabras clave en vocabulario OpenCLIP. El motor Aurora usa entonces la imagen fuente como referencia espacial dominante, manteniendo estables la silueta, el color y la posición relativa del sujeto mientras la cámara y la luz se mueven a su alrededor.

OmniArt integra Grok Imagine en el espacio de trabajo de video junto al resto de modelos, sin necesidad de suscripción separada a xAI. La tarifa de créditos es de 10 créditos por segundo a 480p y 15 créditos por segundo a 720p — lo que significa que un borrador de 5 segundos a 480p cuesta 50 créditos y el mismo a 720p cuesta 75.

Pilar 1: Calidad de la imagen fuente

El motor Aurora ancla la composición desde el fotograma fuente. Las entradas sólidas producen movimiento anclado; las entradas débiles introducen deriva — el modelo reinterpola lo que no puede leer claramente, y la precisión se resiente.

La lista de verificación de la imagen fuente

Haz esto	No hagas esto
Usa un fondo limpio y despejado (blanco, gris claro o contexto lifestyle con espacio para respirar)	Uses fondos tan recargados que el producto desaparezca en ellos
Encuadra o recorta para que el producto ocupe el 50–70% del fotograma	Uses fotos de producto muy recortadas o con los bordes cortados
Mantén un contraste alto entre el sujeto y el fondo	Uses una foto de producto cuyo color coincide con el fondo
Mantén texto, logos y etiquetas enfocados y legibles	Uses imágenes con artefactos graves de compresión JPEG
Trabaja desde la fuente de mayor resolución disponible (mínimo 1024 × 1024)	Uses una imagen de miniatura o reducida para web
Usa un único sujeto protagonista por fotograma	Uses un flat lay agrupado con cinco productos
Asegúrate de que el detalle definitorio del producto (suela, esfera, cierre, tapa) sea claramente visible	Uses un ángulo que oculta el elemento clave del producto

Advertencia

Los artefactos de compresión y la ambigüedad visual en la fuente se trasladan al movimiento. El modelo no puede recuperar la nitidez que no existe — interpolará e inventará, lo que produce borrosidad en etiquetas y distorsión de formas. Comienza siempre desde el archivo más limpio que tengas.

Por qué esto importa más para Grok que para texto a video

Con texto a video describes un producto y el modelo crea uno que encaja con tus palabras. Con imagen a video el modelo se compromete a respetar tu producto real — pero solo en la medida en que puede leerlo a partir del fotograma fuente. Una foto de baja resolución o visualmente ambigua es la razón más común por la que los resultados de Grok Imagine 1.5 en modo imagen a video decepcionan.

Pilar 2: La fórmula de prompt en cinco partes

Grok Imagine 1.5 usa FLUX.1 como base de imagen, lo que favorece las descripciones en lenguaje natural sobre las listas de palabras clave. Las cinco partes a continuación se corresponden con lo que el motor de movimiento Aurora puede actuar directamente.

La fórmula

[Acción] — [Iluminación] — [Ritmo] — [Fondo] — [Tono/referencia]

Cada parte en detalle:

Acción — el movimiento de la cámara o del sujeto. Sé específico: "dolly lento desde la altura de la cintura", "paneo orbital alrededor del lado izquierdo", "flotación vertical suave, 3 cm arriba y de vuelta". Términos vagos como "dinámico" dan demasiada libertad al modelo y producen resultados inconsistentes.
Iluminación — describe la dirección, calidad y fuente de la luz. "Rim light por detrás con luz clave de tungsteno cálida en el lado izquierdo de la cámara" supera a "iluminación dramática". Temperaturas de color específicas ("3200K", "5600K daylight") o calidades de luz concretas ("fill de softbox", "sombra dura a 45 grados") anclan el aspecto visual.
Ritmo — la velocidad y el ritmo del movimiento. "Push lento de 2 segundos, sin aceleración", "sensación de reproducción a 0,5×", "pausado, tono editorial". Sin un ritmo explícito, el modelo usa movimiento moderado por defecto, que es demasiado rápido para el trabajo con productos protagonistas.
Fondo — si debe quedarse quieto, desplazarse sutilmente o contribuir a la escena. "Ciclorama blanco, sin movimiento de fondo", "superficie de mármol con bokeh difuminado, cambio sutil de luz", "vacío de estudio, sin detalle ambiental". Omitir esto suele producir una deriva indeseable del fondo.
Tono y referencia de cámara — una sola frase que calibra el registro general. Las referencias de equipo son más fiables que los adjetivos: "grabado en Fujifilm XT4" supera a "cinematográfico"; "sensación de anuncio impreso de lujo" supera a "premium"; un mes y hora específicos ("enero por la mañana, 9h de estudio") supera a "hora dorada".

Consejo

Las palabras de color específicas superan a las vagas. "Blanco marfil" supera a "claro", "índigo profundo" supera a "azul oscuro", "oro champán" supera a "dorado". La base FLUX.1 está entrenada con descripciones de imágenes que usan nombres de colores precisos, y el movimiento preserva la interpretación de color que hace a partir del primer fotograma.

Qué omitir

No incluyas nombres de marcas, rostros de personas ni referencias a lugares reales. No apiles sinónimos ("lujoso premium de alto nivel") — el prompting en lenguaje natural de FLUX.1 no gana nada con ello y añade ruido. Una frase clara por parte es mejor que tres adjetivos fragmentados.

Pilar 3: El flujo de trabajo de resolución 480p a 720p

La diferencia de coste en créditos entre 480p y 720p es de 5 créditos por segundo — modesta para un único clip, pero significativa cuando estás iterando sobre prompt y movimiento antes de confirmar.

Flujo de trabajo recomendado

Paso	Resolución	Propósito	Coste (clip de 5s)
1. Ideación del prompt	480p	Probar el movimiento de cámara y la estabilidad del sujeto	50 créditos
2. Refinamiento del movimiento	480p	Ajustar ritmo, fondo y prompt de iluminación	50 créditos por iteración
3. Salida final	720p	Master limpio para redes sociales o presentación	75 créditos

Tres iteraciones a 480p más un final a 720p suman 225 créditos — lo mismo que tres renders a 720p. La disciplina clave es no pasar a 720p hasta que el borrador a 480p tenga el movimiento y la composición que buscas. El motor Aurora escala el mismo clip, así que un resultado aprobado a 480p se convierte en un resultado aprobado a 720p de forma consistente.

Nota

El audio nativo se genera en el mismo proceso de inferencia independientemente de la resolución. El sonido ambiente y cualquier audio mecánico que Grok Imagine 1.5 produzca a 480p será idéntico en carácter al que produce el final a 720p — así que puedes evaluar el audio durante la fase de iteración a 480p también.

Cuatro ejemplos prácticos

Ejemplo 1: Push de héroe para deportivo

Producto: Deportivo blanco de caña baja, plano de tres cuartos, sobre mesa blanca, reflejos limpios.

Configuración de la imagen fuente: Fotografiado ligeramente desde arriba a 45 grados, suela visible, nudos de los cordones nítidos, etiqueta de la lengüeta legible. Exportado a 2048 × 2048, sin compresión.

Prompt:

"Dolly lento desde distancia media hasta primer plano en la puntera, deteniéndose cuando la suela ocupa un tercio del fotograma. Sombra dura de luz natural cenital que barre de izquierda a derecha. Ritmo pausado, sensación de 0,3×. Fondo infinito blanco, sin movimiento. Grabado en Leica SL2, registro editorial de calzado de lujo."

Lo que el movimiento añade: El push gradual revela la textura del material de la puntera y el canto de la suela en secuencia — información que un still plano no puede comunicar. La sombra de luz natural que barre el panel lateral muestra la calidad de la superficie sin necesidad de narración.

Audio: Grok genera un leve tono ambiente de sala y un sutil sonido de material cuando la suela entra en cuadro — retíralo o colócalo bajo la música según convenga.

Ejemplo 2: Órbita de revelación del reloj

Producto: Reloj de vestir en acero inoxidable, flat lay sobre papel gris texturizado, esfera hacia arriba con correa suelta.

Configuración de la imagen fuente: La esfera ocupa el 60% del fotograma, índices legibles, detalle de la corona visible a la derecha. Fotografiado a 2000 × 2000, luz difusa uniforme.

Prompt:

"Paneo orbital lento que comienza en la posición de las 9, viaja en sentido horario alrededor de la esfera del reloj, completando 180 grados en 8 segundos. Fill de softbox desde arriba, rim especular duro desde la derecha de la cámara a 4500K. Sin aceleración de ritmo. Superficie de lino gris claro, fondo estático. Estilo editorial de relojero de estudio."

Lo que el movimiento añade: La órbita captura el destello metálico del canto de la caja y las agujas desde múltiples ángulos en una sola pasada — un detalle de producto que normalmente requiere cuatro stills separados para comunicar. El arco de 180 grados mantiene la esfera legible en todo momento.

Audio: El motor Aurora genera un ambiente mecánico suave — fino, preciso, apropiado para el contexto relojero. Útil como base bajo una voz en off.

Ejemplo 3: Float y asentamiento del bolso

Producto: Bolso de cuero estructurado en color camel, de pie frente a un fondo crema cálido, herrajes visibles.

Configuración de la imagen fuente: Cara frontal centrada en el fotograma, asas superiores visibles, tirador de la cremallera nítido. Fotografiado a 1800 × 1800.

Prompt:

"El bolso flota 6 cm por encima de la superficie, se mantiene 2 segundos en el punto más alto y luego desciende suavemente. La luz apenas se mueve. Fill ambiente cálido de 3200K desde arriba a la izquierda, toque sutil de luz en el cuero desde abajo a la derecha. Ritmo deliberado y contenido. Fondo infinito crema, sin movimiento ambiental. Registro de catálogo de moda de lujo, grabado en Hasselblad formato medio."

Lo que el movimiento añade: El float y el asentamiento crean una sensación de peso y sustancia material — el bolso se comporta como un objeto físico y no como un recorte. La pausa en el punto más alto da al espectador tiempo para leer los herrajes y el detalle de la costura.

Audio: El tono ambiente es mínimo; el regreso a la superficie produce un suave sonido de contacto que refuerza la fisicidad.

Ejemplo 4: Rotación de producto de belleza con condensación

Producto: Frasco de sérum con acabado mate, vertical, tapón gotero plateado, etiqueta blanca.

Configuración de la imagen fuente: El frasco ocupa el 55% del fotograma, texto de la etiqueta nítido, detalle del tapón visible, fondo blanco limpio. Fotografiado a 1920 × 1920.

Prompt:

"Rotación lenta en sentido antihorario, 360 grados completos en 10 segundos. Se forma condensación de humedad fina en la superficie de vidrio al comenzar la rotación y se dispersa hacia la mitad. Luz de día fría y suave desde arriba a 6000K, rim light desde atrás. Ritmo constante y pausado. Fondo de estudio blanco, sin deriva. Estética de campaña de skincare, grabado en Phase One IQ4."

Lo que el movimiento añade: El efecto de condensación comunica eficacia y frescura — dos ideas conceptualmente costosas de transmitir en un still. La rotación completa muestra el texto de la etiqueta trasera y el mecanismo gotero desde todos los ángulos.

Advertencia

Los efectos de condensación y partículas son emergentes en Grok Imagine 1.5 — el modelo interpreta la instrucción en lugar de renderizarla de forma procedural. En algunas generaciones el efecto es denso; en otras es sutil. Genera dos o tres borradores a 480p y quédate con el resultado donde el efecto se aprecia sin tapar la etiqueta.

Fallos comunes y soluciones

Problema	Causa probable	Solución
El texto de la etiqueta se desenfoca o distorsiona durante el movimiento	La imagen fuente está comprimida o la etiqueta es pequeña en el fotograma	Comienza con una fuente de mayor resolución; recorta más ajustado para que la etiqueta ocupe más del fotograma
El sujeto se desplaza desde su posición inicial	El fondo es visualmente muy similar al producto	Vuelve a fotografiar con un fondo de mayor contraste, o describe el color del fondo explícitamente en el prompt
El movimiento de cámara es demasiado rápido	El ritmo no está especificado	Añade un descriptor de ritmo explícito: "pausado", "sensación de 0,3×" o un recuento de segundos
El fondo genera movimiento no deseado	La descripción del fondo se ha omitido	Añade "fondo estático, sin movimiento de fondo" explícitamente
El color cambia a mitad del clip	El balance de blancos de la imagen fuente es inconsistente	Corrige el balance de blancos de la imagen fuente antes de subir
El audio nativo suena desacompasado	La referencia de tono es vaga	Añade un registro más específico ("estudio silencioso", "tono ambiente mínimo") si no quieres un paisaje sonoro generado

Cuándo elegir Grok Imagine 1.5 frente a otros modelos

Grok Imagine 1.5 es la herramienta adecuada cuando tienes un still de origen limpio y quieres un anclaje consistente del sujeto a una tasa de créditos eficiente. No es la herramienta adecuada para todos los briefings de video.

Necesidad	Mejor opción
Consistencia de personaje en escenas con múltiples planos	Seedance 2.0
Parametrización de cámara a nivel de fotograma	V6
Salida 4K para broadcast	Veo 3
Alta energía de movimiento, estética UGC lifestyle	Modelos PixVerse
Mayor duración de clip (hasta 60s)	Sora 2

Para el marco general de selección de modelos en todo el panorama de imagen a video, la guía de fotos de productos a anuncios de video cubre las opciones por objetivo y presupuesto.

Cómo empezar en OmniArt

Abre el espacio de trabajo de video de OmniArt, selecciona Grok Imagine como modelo y sube un still de producto que supere la lista de verificación de imagen fuente anterior. Escribe un prompt en cinco partes — acción, iluminación, ritmo, fondo, tono — y genera un borrador de 5 segundos a 480p. Si el movimiento y el anclaje del sujeto se mantienen, pasa a 720p para el resultado final.

Todo el proceso — borrador, refinamiento, master — funciona dentro de un único espacio de trabajo con el mismo saldo de créditos que usas en todos los demás modelos de OmniArt. Sin cuenta xAI separada, sin exportar archivos a otra herramienta, sin empezar desde cero con texto cuando ya tienes la foto del producto que quieres.

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis