guideTutoriales y guías13 min de lectura

8 prompts para Grok Imagine que realmente funcionan

Ocho prompts listos para copiar en Grok Imagine 1.5 para imagen y vídeo, construidos con el estilo de lenguaje natural de FLUX.1 y la estructura Sujeto + Acción + Cámara + Estilo + Audio. Qué produce cada prompt y por qué funciona, dentro de OmniArt.

Equipo OmniArt
8 prompts para Grok Imagine que realmente funcionan

Grok Imagine 1.5 actualizó la base de imagen a FLUX.1 de Black Forest Labs, y ese cambio tiene una implicación concreta en cómo escribes prompts: el modelo responde a la descripción en lenguaje natural de la forma en que un fotógrafo lee un briefing, no como los modelos anteriores interpretaban listas de palabras clave. Los ocho prompts que encontrarás a continuación están listos para copiar — pégalos en el espacio de trabajo Grok Imagine de OmniArt, ajusta los detalles y genera. Cada tarjeta incluye el texto exacto del prompt, lo que produce y una nota de creación sobre por qué funciona la estructura.

Para la teoría general de prompts en todos los modelos de OmniArt, consulta cómo escribir mejores prompts. Para el tratamiento en profundidad de los seis modos de generación de Grok Imagine y los cálculos de coste, consulta la guía del creador de Grok Imagine. Este artículo trata específicamente sobre Grok Imagine 1.5 — el lanzamiento con FLUX.1 — y la técnica de prompt que recompensa.

Qué cambió en los prompts con Grok Imagine 1.5

El modelo base FLUX.1 está entrenado de forma diferente a las arquitecturas de texto a imagen anteriores. Interpreta bien la prosa conectada y tiende a responder poco a las acumulaciones de palabras clave puras. Cinco hábitos mejoran la calidad de forma más fiable:

  • Lenguaje natural en lugar de acumulaciones de palabras clave. Las frases completas superan a los adjetivos separados por comas. "Una calle en la hora azul, iluminada por el resplandor de un cartel de conveniencia" supera a "calle, noche, neón, cinematográfico, 4K."
  • Referencias específicas en lugar de adjetivos vagos. "Fotografiado con una Fujifilm XT4, 23mm f/2" le dice más al modelo que "foto de alta calidad." Los nombres de equipos y los tipos de película tienen un peso real en el espacio latente.
  • Palabras de color exactas en lugar de "colorido." "Azul eléctrico y rosa intenso" produce una paleta deliberada. "Colorido" produce ruido promediado.
  • Hora exacta en lugar de "hora dorada." "Finales de octubre, 17:45, sol a 6° sobre el horizonte" le dice al modelo el ángulo y la calidez exactos de la luz. "Hora dorada" es ambiguo según la estación y la latitud.
  • Estructura de vídeo: Sujeto + Acción + Cámara + Estilo + Audio. Pon el sujeto principal y la acción en las primeras 20–30 palabras. Un único enfoque de estilo supera a una mezcla. Itera progresivamente — cambia una variable por generación hasta que el resultado se afiance, luego avanza más.

Para un análisis completo del vocabulario cinematográfico que se transfiere al vídeo, la guía de prompts para vídeo de IA cinematográfico cubre en profundidad la elección de objetivos, los movimientos de cámara motivados y el lenguaje de la iluminación.


Los 8 prompts

1. Fotografía de producto cinematográfica (imagen)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Qué produce: un still limpio y con dirección artística que se lee como fotografía de producto profesional en lugar de resultado de IA.

Por qué funciona: la referencia a la Fujifilm XT4 ancla la ciencia del color y el renderizado del sensor en un look real específico. El ángulo de luz se especifica numéricamente, lo que evita que el modelo utilice por defecto la iluminación difusa cenital. Mantener la paleta en dos colores — luces cálidas de ámbar, relleno de sombra azul grisáceo frío — evita que el modelo introduzca un tercer tono en competencia.


2. Primer plano de personaje con audio (vídeo)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Qué produce: un momento de personaje con audio nativo de Grok Imagine 1.5 — el modelo genera diálogo, sincronización labial y sonido ambiente en una única pasada de inferencia.

Por qué funciona: la línea de diálogo es lo suficientemente corta como para sincronizar los labios de forma limpia en 8 segundos. Dos fuentes de luz neón separadas y nombradas (rosa en la parte superior, cian desde la derecha) le dan al modelo un mapa de luz claro y evitan el promediado genérico de "ciudad neón." "No es drama cinematográfico" es una restricción negativa que guía el estado de ánimo con más precisión de lo que haría un adjetivo positivo.

Consejo

Mantén el diálogo hablado en una o dos frases cortas en clips de menos de 10 segundos. Las líneas más largas llenan la duración disponible y el modelo puede apresurar la entrega o cortar el audio antes de tiempo.


3. Entorno atmosférico — clip de ambiente (vídeo)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Qué produce: un clip de ambiente para establecer el mood, ideal como metraje de fondo, material de transición o escena de apertura.

Por qué funciona: "principios de noviembre, 7 de la mañana" es más preciso que "mañana con niebla." El push se describe como "imperceptible" y "flotando sobre el aliento," lo que comunica el ritmo con más precisión que "avance lento." Pedir que no haya música evita que el audio use música de fondo por defecto — el modelo genera un sonido ambiente auténtico al estilo de grabación de campo.


4. Vídeo social vertical de ritmo rápido — presentación de producto (vídeo)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Qué produce: un clip social 9:16 con impacto, diseñado para TikTok, Reels o Shorts — presentación de producto con corte rápido y audio nativo.

Por qué funciona: especificar 9:16 al principio establece la relación de aspecto antes que cualquier otra cosa en el prompt. La línea de tiempo se escribe explícitamente ("0–2s / 2–8s"), lo que ayuda al modelo a marcar los dos tiempos correctamente en lugar de mezclarlos en un único movimiento. Nombrar los eventos de audio específicos (sonido de impacto, tono de sintetizador) produce un diseño de sonido más intencional que "añade efectos de sonido."

Advertencia

Los clips de Grok Imagine 1.5 duran hasta 15 segundos. Para contenido social mantén los clips en un máximo de 8–10 segundos — el movimiento del modelo es más limpio en ese rango y las ventanas de atención de las plataformas sociales son cortas. A 720p, un clip de 8 segundos cuesta 120 créditos en OmniArt.


5. Ilustración estilizada (imagen)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Qué produce: una ilustración gráfica con colores limitados que parece un proceso de impresión real en lugar de arte digital genérico.

Por qué funciona: nombrar la técnica de impresión (Risograph) y sus restricciones específicas (dos colores de tinta, formas planas, sin degradados, desajuste de registro de tinta) le da al modelo un briefing técnico completo. "Desajuste de registro de tinta" es el tipo de detalle de proceso físico que ancla el resultado en una estética del mundo real — es el equivalente FLUX.1 de nombrar un tipo de película. Sin él, el modelo tiende a añadir degradados o mezclar colores.


6. Movimiento de cámara dinámico — retroceso de dron (vídeo)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Qué produce: un plano de revelación sostenido de 15 segundos — la duración máxima de clip del modelo — construido en torno a un único movimiento de cámara motivado.

Por qué funciona: este prompt usa la duración completa de 15 segundos para un único movimiento continuo, que es la forma más fiable de obtener un resultado limpio a esa duración. El retroceso está restringido a elevación constante (sin inclinación), lo que evita que el modelo improvise un segundo eje de cámara y cree movimiento irregular. "Color estilo LOG, ligero viñeteado de objetivo" codifica un look de cámara real sin requerir nombres de equipos específicos.


7. Moda estilizada — retrato con película analógica (imagen)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Qué produce: un retrato fotográfico analógico con renderizado de color vintage preciso — grano auténtico, halación y cambios de color propios de la película caducada.

Por qué funciona: "Kodak Portra 400 caducada" es una de las referencias de estilo de frase única más potentes en el espacio latente de imagen — lleva consigo un conjunto completo de expectativas tonales. Especificar el cambio de color ("verdes desplazados ligeramente hacia el amarillo oliva") evita el grano vintage genérico y guía la corrupción exacta de paleta asociada a la película caducada. El recorte ajustado y una relación de aspecto específica (4:5) producen un retrato que parece una copia fotográfica real.


8. Entorno inmersivo — lluvia (vídeo)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Qué produce: un clip ambiental inmersivo de punto de vista único — potente como plano de apertura o como pieza de mood independiente.

Por qué funciona: "finales de junio, 22:00" especifica la estación exacta, la sensación de temperatura (lluvia cálida de verano) y el nivel de oscuridad. El ciclista que pasa se planta como un evento específico en un momento concreto ("unos 2 segundos a mitad del clip"), lo que le da al modelo un punto de anclaje narrativo sin pedir una acción compleja del personaje. El audio se da en tres capas separadas (lluvia sobre el cristal, chirrido de neumático distante, moto), lo que tiende a producir un diseño de sonido más elaborado que una única instrucción de "lluvia urbana ambiente."


Usarlos en OmniArt

Los ocho prompts funcionan con Grok Imagine 1.5 dentro del espacio de creación de OmniArt — sin necesidad de una suscripción xAI separada. Los prompts de imagen (1, 5, 7) van al espacio de imagen; los prompts de vídeo (2, 3, 4, 6, 8) van al espacio de vídeo bajo Grok Imagine.

Algunas notas prácticas para las ejecuciones en OmniArt:

  • Empieza en 480p para iterar. En 480p, el vídeo cuesta 10 créditos por segundo. Una vez que la estructura sea correcta, sube a 720p (15 créditos por segundo) para la toma final.
  • Usa el Modo Extender para alargar. El clip de ambiente (prompt 3) y el retroceso de dron (prompt 6) pueden extenderse hasta 15 segundos adicionales usando el Modo Extender de Grok Imagine — el mismo modelo, facturado solo por la parte añadida.
  • Usa el Modo Modificar para correcciones puntuales. Si la iluminación en un resultado está casi bien pero un elemento está desajustado, el Modo Modificar te permite describir el cambio en texto sin regenerar el clip completo. Mantén los clips de origen en 480p antes de pasarlos a Modificar — el modo limita la entrada a 854×480.
  • Consistencia de personaje entre planos: si estás generando múltiples planos del mismo personaje (estilo del prompt 2), usa el Modo Referencia con un primer plano como @Image1 y vuelve a describir el personaje en cada nuevo prompt. El Modo Referencia de Grok Imagine 1.5 es el camino más directo hacia la consistencia sin depender de un modelo ajustado.

Para un análisis completo de los seis modos de generación de Grok Imagine, los escenarios de coste y cuándo cambiar a un modelo diferente, consulta la guía completa de Grok Imagine. Para el vocabulario cinematográfico más amplio que se transfiere a cualquier prompt de vídeo, la guía de prompts para vídeo de IA cinematográfico merece guardarse junto a esta.

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis