Grok Imagine: guía del modelo de vídeo de xAI para creadores en 2026
Guía práctica de Grok Imagine — seis modos de generación, patrones de prompt, coste real en créditos y cuándo elegirlo frente a V6 o Sora 2 en 2026.

Grok Imagine es el modelo de generación de vídeo y audio de xAI, lanzado en enero de 2026 y accesible en OmniArt sin suscripción xAI aparte. Es un producto distinto del chatbot Grok — comparten nombre y poco más. Esta guía cubre para qué está hecho Grok Imagine, los seis modos de generación que importan, patrones de prompt que respetan cada modo y la matemática de lo que cuestan proyectos reales en créditos.
Qué es Grok Imagine
Grok Imagine genera vídeo hasta 720p con audio nativo en clips de 1–15 segundos. El truco destacado no es la resolución — a 720p no compite con Sora 2 o V6 en fidelidad bruta. El truco es la superficie de flujo alrededor del modelo: seis modos que comparten un peso y te permiten generar, extender, restylear y modificar sin salir del modelo.
| Especificación | Valor |
|---|---|
| Resolución máxima | 720p (usa V6 para 1080p+) |
| Duración máxima | 15 s por generación |
| Relaciones de aspecto | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Audio | Nativo, generado junto al vídeo |
| Coste (480p) | 10 créditos por segundo |
| Coste (720p) | 15 créditos por segundo |
Los seis modos que conviene conocer
Cada modo es una forma distinta de decirle al modelo qué tipo de entrada maneja. Elegir el modo correcto es gran parte del prompt engineering.
Texto a vídeo
El predeterminado. Escribes un prompt, obtienes un clip. Mejor para exploración de concepto, mood boards y borradores sociales sin imagen de referencia. Coste 10–15 créditos/s según resolución.
Imagen a vídeo
Anima un still preservando la composición de entrada. El primer fotograma queda bloqueado a tu imagen. Úsalo para ilustraciones, fotografía de producto y mockups donde el fotograma fuente no es negociable.
Reference Mode — el diferenciador
Reference Mode acepta 1–7 imágenes como anclas visuales sin bloquear el primer fotograma. Etiquetas @Image1, @Image2, @Image3 y las referencias en el prompt. La mayoría de modelos de vídeo no tienen esto: o bloquean el primer fotograma (imagen a vídeo) o no aceptan referencia (texto a vídeo). Reference Mode queda en medio y es la vía más limpia a consistencia de personaje entre varios planos.
Coste 15 créditos/s a 480p, 22,5 a 720p.
Extend Mode
Añade 2–10 s a un clip existente. Entrada MP4 entre 2 y 15 s. Salida un clip continuo; solo factura la parte añadida. Truco cross-modelo: Extend funciona con vídeos generados por cualquier modelo del espacio de vídeo OmniArt, no solo Grok.
Modify Mode
Edita un clip sin regenerarlo — cambios de fondo, luz, color en objetos concretos, efectos meteorológicos. Entrada máx. 8 s y escala auto a 854×480: fuentes alta res pierden detalle en el viaje. Usa Modify en clips que generaste a 480p.
Editing Suite — Restyle, manipulación de objetos, Sketches to Life
Operaciones post-generación: Restyle aplica estilos (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic); Object Manipulation añade, quita o cambia elementos; Sketches to Life anima dibujos lineales; Add Performance graftea animación de personaje sobre figuras estáticas. Útil para variaciones desde un clip fuente.
Prompts que respetan el modelo
Cuatro hábitos suben calidad más rápido que prompts más largos.
Usa lenguaje cinematográfico
Grok Imagine tiene seis presets de cámara: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Se activan mejor con términos de cinematografía.
| Más débil | Más fuerte |
|---|---|
| «Una calle de ciudad de noche con neones y gente caminando» | «Dolly hacia adelante por un callejón de Tokio mojado por la lluvia, neones reflejados en charcos, poca profundidad de campo, una figura con paraguas entra por la derecha, encuadre cinematográfico 2.39:1» |
Etiqueta referencias explícitamente
Reference Mode se degrada con prompts genéricos. Asigna rol a cada referencia.
«@Image1 (el coche deportivo rojo) derrapa en una curva de montaña con @Image3 (el cielo al atardecer) de fondo mientras @Image2 (el personaje conductor) agarra el volante.»
Antepón la acción
La generación avanza secuencialmente en la duración. Si el clímax está al final de un clip de 5 s, el modelo puede no terminarlo. Sube la acción al inicio.
| Más débil | Más fuerte |
|---|---|
| «Un bosque tranquilo con pájaros, luego de repente un ciervo salta un arroyo» | «Un ciervo salta un arroyo en el bosque a la hora dorada, cámara siguiendo el arco, pájaros espantan de ramas cercanas» |
Ritma clips de 10–15 s en timeline
En clips largos, escribe el timing en el prompt.
«Zoom lento a biblioteca abandonada (0–5s), partículas de polvo en haces de luz (5–10s), libro cae del estante (10–12s), páginas ondean (12–15s).»
Qué cuesta en la práctica
Tres escenarios de plano reales, en créditos OmniArt.
Vídeo de producto TikTok de 15 s
| Paso | Modo | Resolución | Coste |
|---|---|---|---|
| Generación inicial | Texto a vídeo | 480p, 10s | 100 |
| Extend | Extend | 480p, 5s | 75 |
| Total (una revisión) | 175–275 |
Storyboard de marca de 3 planos
| Paso | Modo | Resolución | Coste |
|---|---|---|---|
| Plano 1 con 2 refs | Reference, 8s | 720p | 180 |
| Plano 2, mismas refs | Reference, 8s | 720p | 180 |
| Plano 3, mismas refs | Reference, 6s | 720p | 135 |
| Ajuste de luz en plano 2 | Modify, 8s | 720p | 180 |
| Total | 675 |
Pase de restyle
| Paso | Modo | Resolución | Coste |
|---|---|---|---|
| Restyle a Anime | Restyle, 8s | 480p | 120 |
Cuándo elegir otro modelo
Grok Imagine es la herramienta correcta para social corto, boceto a vida y historias multi-shot con referencias a 480p–720p. Es la herramienta equivocada cuando:
| Necesidad | Mejor opción |
|---|---|
| 1080p o más | V6, BACH, Veo 3 |
| Control avanzado de lente (focal, DOF, aberración) | V6 |
| Clips de 16–20 s en un pase | Sora 2 |
| Diálogo y música de grado producción | Modelo de audio dedicado + edición |
| Preservar fuente alta res en ediciones | Evita Modify Mode |
Patrones de flujo que llegan a producción
Grok Imagine paga en OmniArt no como generador aislado, sino como capa de iteración. Dos patrones rinden más.
Patrón 1 — genera en otro sitio, refina aquí. Renderiza el clip maestro con V6 o Sora 2 en mayor resolución, luego usa Extend, Restyle y Modify en Grok para variantes y añadidos a menor coste.
Patrón 2 — Reference Mode para bloqueo de personaje. Cuando una campaña de marca necesita el mismo personaje en cinco planos, bloquea identidad con una imagen ancla en @Image1 y genera cada plano en Reference Mode. Más barato que re-lanzar Sora 2 por plano.
Warning
Modify Mode escala cualquier entrada por encima de 854×480 a 480p antes de procesar. Si necesitas editar un clip 1080p sin perder resolución, edita en otro sitio o haz la edición antes del upscale.
Empezar en OmniArt
Grok Imagine está en el espacio de vídeo de OmniArt junto a V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 y Seedance 2.0. Mismo saldo, misma subida de referencias, misma gramática de prompt. Empieza en Texto a vídeo para aprender los presets de cámara, luego pasa a Reference Mode cuando tengas personaje o producto que bloquear.
Combina esta guía con el desglose del cinematógrafo BACH para narrativa de mayor fidelidad, o la shortlist imagen a vídeo si eliges modelo por plano concreto.