industryModelos e insights12 min de lectura

Grok Imagine 1.5 vs 1.0: qué cambia realmente con los +52 Elo

El Grok Imagine 1.5 de xAI subió +52 Elo sobre el 1.0 y alcanzó el 1.er puesto en el Image-to-Video Arena. Desglosamos la diferencia en cuatro cambios que los creadores notan de inmediato: audio nativo, clips de 15 segundos, consistencia facial y Extend from Frame, con comparativas dentro de OmniArt.

Equipo OmniArt12 jun 2026

Grok Imagine 1.5 ha llegado como actualización en vista previa y ha marcado la diferencia: +52 Elo sobre el 1.0, situándose en lo más alto del Image-to-Video Arena por delante de Seedance 2.0, HappyHorse 1.0 y Google Veo en pruebas ciegas con usuarios. Un salto de 52 puntos en un ranking maduro es una señal significativa: equivale a una tasa de victoria de aproximadamente el 57% para el 1.5 en enfrentamientos directos contra el 1.0.

El número es el titular. Lo que importa para el trabajo en producción es qué cambios específicos lo impulsan. Hemos estado utilizando el 1.5 junto al 1.0 en el espacio de trabajo de vídeo de OmniArt y el avance se atribuye claramente a cuatro cosas que los creadores notan de inmediato. Ninguna de ellas es sutil.

Si eres nuevo en Grok Imagine, empieza con la guía introductoria — cubre los seis modos de generación, los patrones de prompt y el cálculo de créditos en detalle. Este artículo asume que ya has publicado al menos algunos clips con el 1.0 y quieres saber qué merece la pena volver a generar.

Comparativa rápida de especificaciones: 1.0 vs 1.5

Especificación	Grok Imagine 1.0	Grok Imagine 1.5
Resolución máxima	720p	720p
Duración máxima	10 segundos	15 segundos
Relaciones de aspecto	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Audio	Nativo, generación conjunta	Nativo, generación conjunta — mejorado
Consistencia facial	Nivel base	Mejora notable
Extend from Frame	Continuación por el último fotograma	Selección explícita de fotograma, continuidad mejorada
Base de generación de imagen	FLUX.1 (Black Forest Labs)	FLUX.1 (Black Forest Labs)
Coste (480p)	10 créditos/seg	10 créditos/seg
Coste (720p)	15 créditos/seg	15 créditos/seg
Posición en el Arena	Varias posiciones por debajo del 1.º	1.er puesto en el Image-to-Video Arena

El límite de resolución y el precio en créditos no han cambiado. Los avances están en lo que el modelo hace dentro de esas restricciones.

Cambio 1: el audio nativo suena como una sola pasada

Grok Imagine ha generado audio desde el 1.0 — diálogo, sincronización de labios, efectos de sonido y música ambiental, todo construido a partir de tokens de vídeo en una única pasada de inferencia sin un modelo de audio separado cosido después. En la práctica, el audio del 1.0 tenía dos patrones de fallo constantes: timing mecánico en el diálogo (las palabras llegaban a intervalos uniformes, haciendo pausa en los límites gramaticales en lugar de en puntos naturales de respiración) y una ambientación plana (una escena en un café con un murmullo de fondo indiferenciado, sin variación espacial).

El 1.5 aborda ambos. La misma arquitectura de pasada única ahora produce entonación a nivel de oración: las frases cortas e intensas terminan con una entonación descendente, mientras que el discurso explicativo más largo tiene una subida audible a mitad de la frase antes de la resolución. El ambiente suena en capas: una escena callejera genera tráfico a distancia, pasos en proximidad y el sonido amortiguado de la puerta de una tienda detrás del sujeto. Estos efectos no son posprocesados; se generan con la misma lógica secuencial fotograma a fotograma que el motor Aurora usa para el movimiento, donde cada fotograma informa al siguiente y el entorno acústico sigue la trayectoria visual.

Prompt en el 1.0: "Un barista explica el proceso de elaboración a un cliente al otro lado del mostrador, fondo de cafetería, iluminación cálida."

Resultado en 1.0: el diálogo llegaba en ráfagas metronómicas, la máquina de espresso de ambiente funcionaba a un nivel constante durante todo el clip.
Resultado en 1.5: la explicación del barista tiene pausas naturales a mitad de frase, la máquina de espresso sube cuando llega otro pedido, la respuesta susurrada del cliente es más suave y está posicionada espacialmente más lejos del eje del micrófono.

La diferencia es más clara en clips con mucho diálogo. Si has estado pasando el vídeo de Grok 1.0 por un modelo de audio separado para el trabajo de voz, el 1.5 cierra la mayor parte de esa brecha de forma nativa.

Cambio 2: 10 segundos se convierten en 15 segundos

Grok Imagine 1.0 limitaba los clips a 10 segundos. El 1.5 lo eleva a 15 segundos, con cualquier duración entera entre 1 y 15 compatible. Los cinco segundos extra pueden parecer menores. En la práctica, es la diferencia entre un clip para redes sociales que necesita una pasada de extensión y otro que sale en la primera generación.

El cálculo de créditos cambia significativamente para los casos de uso estándar:

Caso de uso	1.0 (máx. 10s + extensión hasta 15s)	1.5 (15s nativo)
15s TikTok, 480p	100 (10s) + 75 (5s ampliar) = 175	150
15s TikTok, 720p	150 (10s) + 112,5 (5s ampliar) = 262,5	225
10s plano de producto, 720p	150	150 (sin cambios)

Para el formato social más habitual — un clip de 15 segundos — el 1.5 cuesta aproximadamente un 14% menos en 480p y un 14% menos en 720p en comparación con el método generar-y-extender del 1.0, y te saltas el artefacto de costura que a veces aparece en el punto de unión de la extensión.

El modo de extensión sigue disponible en el 1.5 para ir más allá de los 15 segundos, pero solo pagas los costes de extensión en los metrajes que realmente necesitan más duración, no porque la generación base haya forzado un corte.

Cambio 3: precisión facial y consistencia del personaje

Este es el cambio más difícil de cuantificar y el más señalado de forma consistente en los comentarios de la comunidad. Grok Imagine 1.0 podía generar un rostro convincente en el fotograma inicial y perderlo — distorsionando las facciones entre fotogramas, especialmente durante giros de cabeza, transiciones de iluminación o movimiento rápido. Los personajes introducidos mediante el Modo de Referencia sufrían una deriva en las proporciones faciales en clips más largos.

El 1.5 aborda esto a nivel arquitectónico. La generación secuencial de fotogramas del motor Aurora — donde cada fotograma se basa en el anterior — ahora preserva los puntos de referencia faciales de forma más estable a través de rotaciones y cambios de iluminación. El patrón de retroalimentación de la comunidad es consistente: los giros de cabeza que antes producían distorsiones perturbadoras ahora se completan limpiamente a velocidad normal de reproducción.

Antes/después con un único prompt del Modo de Referencia: "[@Image1] camina hacia la cámara por un callejón lleno de niebla, el rostro claramente visible, gira ligeramente a la derecha a los 8 segundos, luz de farola cálida desde arriba."

1.0: el sujeto mantuvo una identidad consistente durante el paseo, pero el giro a la derecha produjo un notable cambio en el ancho de la mandíbula en el fotograma del giro que volvió a su posición al resolverse.
1.5: el mismo giro se completa sin el artefacto de corrección. Las proporciones de la mandíbula y los pómulos se mantienen durante toda la rotación.

Esto importa más para cualquier caso de uso donde el rostro de un personaje es el sujeto principal: contenido tipo talking head, narrativas protagonizadas por personajes, demos de producto con un portavoz y cualquier clip que use el Modo de Referencia para anclar una identidad consistente en múltiples planos.

Consejo

La consistencia del personaje se acumula en el Modo de Extensión. En el 1.5, un clip extendido preserva la estabilidad de los puntos de referencia faciales establecida en la generación original. La costura donde se une la extensión es menos detectable que en el 1.0 porque ambos segmentos ahora comparten la misma línea de base de geometría facial.

Cambio 4: Extend from Frame — encadena clips hasta alcanzar la duración de un cortometraje

El Modo de Extensión en el 1.0 añadía fotogramas al final de un clip, pero la superficie de control era limitada: le pasabas el clip al modelo y le pedías que continuara. En el 1.5, Extend from Frame añade selección explícita de fotograma — eliges el fotograma final específico desde el que quieres continuar, y el modelo reanuda desde ese estado visual exacto: misma posición del sujeto, misma dirección de iluminación, misma trayectoria de cámara, mismas condiciones atmosféricas.

La diferencia importa cuando una generación produce la apertura y el desarrollo correctos pero los fotogramas finales se desvían de tu intención. En el 1.0, un fotograma final imperfecto significaba aceptarlo como semilla para la extensión o volver a generar el clip entero. En el 1.5, puedes seleccionar un fotograma anterior de la generación — el momento de composición más limpio que realmente querías continuar — y extender desde ahí.

El flujo de trabajo práctico para producciones más largas:

Genera un segmento de apertura de 15 segundos. Revísalo, identifica el mejor fotograma de cierre.
Usa Extend from Frame, selecciona ese fotograma, genera los siguientes 15 segundos.
Repite hasta alcanzar la duración que necesites.

Una cadena de tres segmentos de 15 segundos produce 45 segundos de metraje con el personaje, la iluminación y el estado de la cámara preservados en las uniones. Suficiente para una demo de producto, un anuncio corto o una secuencia de introducción narrativa — a cargo de un modelo que cobra por segundo a 10–15 créditos.

Nota

El Modo de Extensión en OmniArt funciona con varios modelos, no solo con Grok Imagine. Puedes generar la apertura con un modelo diferente y usar Extend from Frame de Grok Imagine 1.5 para continuarla, llevando las mejoras de consistencia del personaje a metraje originado en otro lugar.

A qué corresponden realmente los +52 Elo

La brecha en el Arena se divide en estos cuatro cambios, ponderados según la frecuencia con la que aparece cada uno en la producción cotidiana:

Cambio	Impacto en el Elo	Dónde se nota
Naturalidad del audio	Alto	Cualquier clip con diálogo o ambientación en capas
Duración nativa de 15s	Moderado	Formatos sociales de 15 segundos; flujos dependientes de extensión
Consistencia facial	Alto	Talking heads, trabajo de personaje con Modo de Referencia, giros de cabeza
Extend from Frame	Moderado	Producciones multisegmento, clips encadenados

El Arena prueba específicamente de imagen a vídeo — se anima un still de entrada. En ese contexto, la consistencia facial y la naturalidad del audio son las dos cualidades que más perciben los votantes ciegos, lo que explica de dónde procede la mayor parte del aumento de Elo. La duración y Extend from Frame importan más para los usuarios con experiencia que construyen proyectos de múltiples planos que para el votante de la prueba ciega que ve un clip de 5 segundos.

¿Deberías regenerar tus proyectos del 1.0?

La versión corta: sí para cualquier proyecto en el que el rostro era el sujeto principal, y sí para todo lo que construiste con el patrón de generar-y-extender para alcanzar los 15 segundos. Para todo lo demás, la decisión depende del proyecto.

Regenera ahora si:

Produjiste clips de talking head o centrados en personajes en el 1.0 y notaste deriva facial a mitad del clip. Las mismas entradas del Modo de Referencia deberían producir resultados notablemente más limpios en el 1.5.
Construiste clips de 15 segundos como 10s + 5s de extensión y aparecieron artefactos de costura. La generación nativa de 15 segundos del 1.5 elimina el punto de unión.
El audio era el último obstáculo en un clip que de lo contrario estaba casi listo. La entonación natural y la ambientación en capas del 1.5 resuelven las quejas más habituales sin tener que reescribir el prompt visual.

No merece la pena regenerar si:

El clip era solo de movimiento, sin personajes ni diálogo — el techo de calidad visual en 720p no ha cambiado, y las mejoras en el comportamiento de extensión son marginales para salidas de un único segmento.
Usas mucho el Modo de Modificación — el Modify sigue reduciendo automáticamente cualquier entrada por encima de 854×480 a 480p antes del procesamiento, y ese comportamiento no ha cambiado en el 1.5.
El original era un plano B-roll atmosférico corto (menos de 8s) sin personajes. La mejora del audio ambiente es real, pero es poco probable que justifique una regeneración al precio actual de créditos.

Advertencia

El límite de reducción a 480p del Modo de Modificación no ha cambiado en el 1.5. Si necesitas editar un clip 720p sin perder resolución, haz la pasada de modificación antes de tu generación final en 720p, no después.

Empieza en OmniArt

Grok Imagine 1.5 está disponible en el espacio de trabajo de vídeo de OmniArt junto con V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 y Seedance 2.0. No se requiere suscripción separada a xAI — el mismo saldo de créditos de OmniArt cubre todos los modelos.

La forma más rápida de calibrar el 1.5 es ejecutar un prompt que ya conoces del 1.0. La misma entrada, salida en paralelo, con las mejoras en rostro y audio inmediatamente visibles frente a tu base de referencia. Empieza ahí, y luego decide qué proyectos del 1.0 realmente merecen la pena regenerar.

Para el desglose completo de los seis modos, el cálculo de créditos y los patrones de prompt del Modo de Referencia, consulta la guía de Grok Imagine. Para una comparativa entre varios modelos donde encaja el ranking de imagen a vídeo de Grok Imagine en el panorama más amplio de 2026, el listado de los mejores modelos de imagen a vídeo tiene los rankings actuales.

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis