De foto de producto a anuncio en movimiento: mejores prácticas de Grok Imagine 1.5 para imagen a video
El modo más potente de Grok Imagine 1.5 es convertir una foto de producto limpia en un anuncio en movimiento. Reglas para la imagen fuente, fórmula de prompt en cinco partes, flujo de trabajo 480p-720p y cuatro ejemplos prácticos en OmniArt.

El modo de imagen a video de Grok Imagine 1.5 tiene una tarea que realiza excepcionalmente bien: tomar una foto limpia de un producto y convertirla en un clip publicitario en movimiento sin necesidad de reconstruir el producto a partir de una descripción en texto. El motor Aurora ancla la posición del sujeto, la iluminación y la trayectoria de la cámara a partir de tu imagen fuente, de modo que el deportivo mantiene el tono correcto de blanco y la esfera del reloj sigue siendo legible, algo que la generación de video a partir de texto simplemente no puede garantizar para un producto que realmente vendes.
Esta guía cubre los tres pilares fundamentales que determinan si un clip de Grok Imagine 1.5 en modo imagen a video es utilizable en el primer intento: calidad de la imagen fuente, construcción del prompt y el flujo de trabajo de resolución de 480p a 720p. Cuatro ejemplos prácticos — un deportivo, un reloj, un bolso y un producto de belleza — muestran cada pilar aplicado de principio a fin.
Para el flujo de trabajo completo de anuncios de comercio electrónico que cubre la selección de modelos, formatos de plataforma y audio, consulta Convierte fotos de productos en anuncios de video con OmniArt. Este artículo se centra exclusivamente en obtener los mejores resultados de Grok Imagine 1.5.
Lo que Grok Imagine 1.5 aporta a imagen a video
| Especificación | Valor |
|---|---|
| Resolución | Hasta 720p |
| Fotogramas por segundo | 24 fps |
| Duración | 1–15 segundos |
| Audio nativo | Sí — generado en el mismo proceso de inferencia |
| Base de imagen | FLUX.1 (Black Forest Labs) |
| Ranking en la arena | 1.º en el Image-to-Video Arena (+52 Elo sobre la versión 1.0) |
La base FLUX.1 es la razón por la que el prompting en lenguaje natural funciona aquí. Describes la toma como lo harías al briefar a un operador de cámara, no apilando palabras clave en vocabulario OpenCLIP. El motor Aurora usa entonces la imagen fuente como referencia espacial dominante, manteniendo estables la silueta, el color y la posición relativa del sujeto mientras la cámara y la luz se mueven a su alrededor.
OmniArt integra Grok Imagine en el espacio de trabajo de video junto al resto de modelos, sin necesidad de suscripción separada a xAI. La tarifa de créditos es de 10 créditos por segundo a 480p y 15 créditos por segundo a 720p — lo que significa que un borrador de 5 segundos a 480p cuesta 50 créditos y el mismo a 720p cuesta 75.
Pilar 1: Calidad de la imagen fuente
El motor Aurora ancla la composición desde el fotograma fuente. Las entradas sólidas producen movimiento anclado; las entradas débiles introducen deriva — el modelo reinterpola lo que no puede leer claramente, y la precisión se resiente.
La lista de verificación de la imagen fuente
| Haz esto | No hagas esto |
|---|---|
| Usa un fondo limpio y despejado (blanco, gris claro o contexto lifestyle con espacio para respirar) | Uses fondos tan recargados que el producto desaparezca en ellos |
| Encuadra o recorta para que el producto ocupe el 50–70% del fotograma | Uses fotos de producto muy recortadas o con los bordes cortados |
| Mantén un contraste alto entre el sujeto y el fondo | Uses una foto de producto cuyo color coincide con el fondo |
| Mantén texto, logos y etiquetas enfocados y legibles | Uses imágenes con artefactos graves de compresión JPEG |
| Trabaja desde la fuente de mayor resolución disponible (mínimo 1024 × 1024) | Uses una imagen de miniatura o reducida para web |
| Usa un único sujeto protagonista por fotograma | Uses un flat lay agrupado con cinco productos |
| Asegúrate de que el detalle definitorio del producto (suela, esfera, cierre, tapa) sea claramente visible | Uses un ángulo que oculta el elemento clave del producto |
Advertencia
Por qué esto importa más para Grok que para texto a video
Con texto a video describes un producto y el modelo crea uno que encaja con tus palabras. Con imagen a video el modelo se compromete a respetar tu producto real — pero solo en la medida en que puede leerlo a partir del fotograma fuente. Una foto de baja resolución o visualmente ambigua es la razón más común por la que los resultados de Grok Imagine 1.5 en modo imagen a video decepcionan.
Pilar 2: La fórmula de prompt en cinco partes
Grok Imagine 1.5 usa FLUX.1 como base de imagen, lo que favorece las descripciones en lenguaje natural sobre las listas de palabras clave. Las cinco partes a continuación se corresponden con lo que el motor de movimiento Aurora puede actuar directamente.
La fórmula
[Acción] — [Iluminación] — [Ritmo] — [Fondo] — [Tono/referencia]
Cada parte en detalle:
-
Acción — el movimiento de la cámara o del sujeto. Sé específico: "dolly lento desde la altura de la cintura", "paneo orbital alrededor del lado izquierdo", "flotación vertical suave, 3 cm arriba y de vuelta". Términos vagos como "dinámico" dan demasiada libertad al modelo y producen resultados inconsistentes.
-
Iluminación — describe la dirección, calidad y fuente de la luz. "Rim light por detrás con luz clave de tungsteno cálida en el lado izquierdo de la cámara" supera a "iluminación dramática". Temperaturas de color específicas ("3200K", "5600K daylight") o calidades de luz concretas ("fill de softbox", "sombra dura a 45 grados") anclan el aspecto visual.
-
Ritmo — la velocidad y el ritmo del movimiento. "Push lento de 2 segundos, sin aceleración", "sensación de reproducción a 0,5×", "pausado, tono editorial". Sin un ritmo explícito, el modelo usa movimiento moderado por defecto, que es demasiado rápido para el trabajo con productos protagonistas.
-
Fondo — si debe quedarse quieto, desplazarse sutilmente o contribuir a la escena. "Ciclorama blanco, sin movimiento de fondo", "superficie de mármol con bokeh difuminado, cambio sutil de luz", "vacío de estudio, sin detalle ambiental". Omitir esto suele producir una deriva indeseable del fondo.
-
Tono y referencia de cámara — una sola frase que calibra el registro general. Las referencias de equipo son más fiables que los adjetivos: "grabado en Fujifilm XT4" supera a "cinematográfico"; "sensación de anuncio impreso de lujo" supera a "premium"; un mes y hora específicos ("enero por la mañana, 9h de estudio") supera a "hora dorada".
Consejo
Qué omitir
No incluyas nombres de marcas, rostros de personas ni referencias a lugares reales. No apiles sinónimos ("lujoso premium de alto nivel") — el prompting en lenguaje natural de FLUX.1 no gana nada con ello y añade ruido. Una frase clara por parte es mejor que tres adjetivos fragmentados.
Pilar 3: El flujo de trabajo de resolución 480p a 720p
La diferencia de coste en créditos entre 480p y 720p es de 5 créditos por segundo — modesta para un único clip, pero significativa cuando estás iterando sobre prompt y movimiento antes de confirmar.
Flujo de trabajo recomendado
| Paso | Resolución | Propósito | Coste (clip de 5s) |
|---|---|---|---|
| 1. Ideación del prompt | 480p | Probar el movimiento de cámara y la estabilidad del sujeto | 50 créditos |
| 2. Refinamiento del movimiento | 480p | Ajustar ritmo, fondo y prompt de iluminación | 50 créditos por iteración |
| 3. Salida final | 720p | Master limpio para redes sociales o presentación | 75 créditos |
Tres iteraciones a 480p más un final a 720p suman 225 créditos — lo mismo que tres renders a 720p. La disciplina clave es no pasar a 720p hasta que el borrador a 480p tenga el movimiento y la composición que buscas. El motor Aurora escala el mismo clip, así que un resultado aprobado a 480p se convierte en un resultado aprobado a 720p de forma consistente.
Nota
Cuatro ejemplos prácticos
Ejemplo 1: Push de héroe para deportivo
Producto: Deportivo blanco de caña baja, plano de tres cuartos, sobre mesa blanca, reflejos limpios.
Configuración de la imagen fuente: Fotografiado ligeramente desde arriba a 45 grados, suela visible, nudos de los cordones nítidos, etiqueta de la lengüeta legible. Exportado a 2048 × 2048, sin compresión.
Prompt:
"Dolly lento desde distancia media hasta primer plano en la puntera, deteniéndose cuando la suela ocupa un tercio del fotograma. Sombra dura de luz natural cenital que barre de izquierda a derecha. Ritmo pausado, sensación de 0,3×. Fondo infinito blanco, sin movimiento. Grabado en Leica SL2, registro editorial de calzado de lujo."
Lo que el movimiento añade: El push gradual revela la textura del material de la puntera y el canto de la suela en secuencia — información que un still plano no puede comunicar. La sombra de luz natural que barre el panel lateral muestra la calidad de la superficie sin necesidad de narración.
Audio: Grok genera un leve tono ambiente de sala y un sutil sonido de material cuando la suela entra en cuadro — retíralo o colócalo bajo la música según convenga.
Ejemplo 2: Órbita de revelación del reloj
Producto: Reloj de vestir en acero inoxidable, flat lay sobre papel gris texturizado, esfera hacia arriba con correa suelta.
Configuración de la imagen fuente: La esfera ocupa el 60% del fotograma, índices legibles, detalle de la corona visible a la derecha. Fotografiado a 2000 × 2000, luz difusa uniforme.
Prompt:
"Paneo orbital lento que comienza en la posición de las 9, viaja en sentido horario alrededor de la esfera del reloj, completando 180 grados en 8 segundos. Fill de softbox desde arriba, rim especular duro desde la derecha de la cámara a 4500K. Sin aceleración de ritmo. Superficie de lino gris claro, fondo estático. Estilo editorial de relojero de estudio."
Lo que el movimiento añade: La órbita captura el destello metálico del canto de la caja y las agujas desde múltiples ángulos en una sola pasada — un detalle de producto que normalmente requiere cuatro stills separados para comunicar. El arco de 180 grados mantiene la esfera legible en todo momento.
Audio: El motor Aurora genera un ambiente mecánico suave — fino, preciso, apropiado para el contexto relojero. Útil como base bajo una voz en off.
Ejemplo 3: Float y asentamiento del bolso
Producto: Bolso de cuero estructurado en color camel, de pie frente a un fondo crema cálido, herrajes visibles.
Configuración de la imagen fuente: Cara frontal centrada en el fotograma, asas superiores visibles, tirador de la cremallera nítido. Fotografiado a 1800 × 1800.
Prompt:
"El bolso flota 6 cm por encima de la superficie, se mantiene 2 segundos en el punto más alto y luego desciende suavemente. La luz apenas se mueve. Fill ambiente cálido de 3200K desde arriba a la izquierda, toque sutil de luz en el cuero desde abajo a la derecha. Ritmo deliberado y contenido. Fondo infinito crema, sin movimiento ambiental. Registro de catálogo de moda de lujo, grabado en Hasselblad formato medio."
Lo que el movimiento añade: El float y el asentamiento crean una sensación de peso y sustancia material — el bolso se comporta como un objeto físico y no como un recorte. La pausa en el punto más alto da al espectador tiempo para leer los herrajes y el detalle de la costura.
Audio: El tono ambiente es mínimo; el regreso a la superficie produce un suave sonido de contacto que refuerza la fisicidad.
Ejemplo 4: Rotación de producto de belleza con condensación
Producto: Frasco de sérum con acabado mate, vertical, tapón gotero plateado, etiqueta blanca.
Configuración de la imagen fuente: El frasco ocupa el 55% del fotograma, texto de la etiqueta nítido, detalle del tapón visible, fondo blanco limpio. Fotografiado a 1920 × 1920.
Prompt:
"Rotación lenta en sentido antihorario, 360 grados completos en 10 segundos. Se forma condensación de humedad fina en la superficie de vidrio al comenzar la rotación y se dispersa hacia la mitad. Luz de día fría y suave desde arriba a 6000K, rim light desde atrás. Ritmo constante y pausado. Fondo de estudio blanco, sin deriva. Estética de campaña de skincare, grabado en Phase One IQ4."
Lo que el movimiento añade: El efecto de condensación comunica eficacia y frescura — dos ideas conceptualmente costosas de transmitir en un still. La rotación completa muestra el texto de la etiqueta trasera y el mecanismo gotero desde todos los ángulos.
Advertencia
Fallos comunes y soluciones
| Problema | Causa probable | Solución |
|---|---|---|
| El texto de la etiqueta se desenfoca o distorsiona durante el movimiento | La imagen fuente está comprimida o la etiqueta es pequeña en el fotograma | Comienza con una fuente de mayor resolución; recorta más ajustado para que la etiqueta ocupe más del fotograma |
| El sujeto se desplaza desde su posición inicial | El fondo es visualmente muy similar al producto | Vuelve a fotografiar con un fondo de mayor contraste, o describe el color del fondo explícitamente en el prompt |
| El movimiento de cámara es demasiado rápido | El ritmo no está especificado | Añade un descriptor de ritmo explícito: "pausado", "sensación de 0,3×" o un recuento de segundos |
| El fondo genera movimiento no deseado | La descripción del fondo se ha omitido | Añade "fondo estático, sin movimiento de fondo" explícitamente |
| El color cambia a mitad del clip | El balance de blancos de la imagen fuente es inconsistente | Corrige el balance de blancos de la imagen fuente antes de subir |
| El audio nativo suena desacompasado | La referencia de tono es vaga | Añade un registro más específico ("estudio silencioso", "tono ambiente mínimo") si no quieres un paisaje sonoro generado |
Cuándo elegir Grok Imagine 1.5 frente a otros modelos
Grok Imagine 1.5 es la herramienta adecuada cuando tienes un still de origen limpio y quieres un anclaje consistente del sujeto a una tasa de créditos eficiente. No es la herramienta adecuada para todos los briefings de video.
| Necesidad | Mejor opción |
|---|---|
| Consistencia de personaje en escenas con múltiples planos | Seedance 2.0 |
| Parametrización de cámara a nivel de fotograma | V6 |
| Salida 4K para broadcast | Veo 3 |
| Alta energía de movimiento, estética UGC lifestyle | Modelos PixVerse |
| Mayor duración de clip (hasta 60s) | Sora 2 |
Para el marco general de selección de modelos en todo el panorama de imagen a video, la guía de fotos de productos a anuncios de video cubre las opciones por objetivo y presupuesto.
Cómo empezar en OmniArt
Abre el espacio de trabajo de video de OmniArt, selecciona Grok Imagine como modelo y sube un still de producto que supere la lista de verificación de imagen fuente anterior. Escribe un prompt en cinco partes — acción, iluminación, ritmo, fondo, tono — y genera un borrador de 5 segundos a 480p. Si el movimiento y el anclaje del sujeto se mantienen, pasa a 720p para el resultado final.
Todo el proceso — borrador, refinamiento, master — funciona dentro de un único espacio de trabajo con el mismo saldo de créditos que usas en todos los demás modelos de OmniArt. Sin cuenta xAI separada, sin exportar archivos a otra herramienta, sin empezar desde cero con texto cuando ya tienes la foto del producto que quieres.
¿Listo para crear?
Empieza a generar contenido increíble con IA