industryModèles et analyses12 min de lecture

Grok Imagine 1.5 vs 1.0 : ce que les +52 Elo changent vraiment

Le Grok Imagine 1.5 de xAI a gagné +52 Elo par rapport au 1.0 pour atteindre la 1re place de l'Image-to-Video Arena. Nous décomposons ce gain en quatre changements que les créateurs ressentent concrètement : audio natif, clips de 15 secondes, cohérence faciale et Extend from Frame, avec des comparaisons avant/après dans OmniArt.

Équipe OmniArt12 juin 2026

Grok Imagine 1.5 est disponible en mise à jour de prévisualisation et il a fait bouger les lignes : +52 Elo par rapport au 1.0, le propulsant en tête de l'Image-to-Video Arena devant Seedance 2.0, HappyHorse 1.0 et Google Veo dans les tests en aveugle. Un bond de 52 points dans un classement mature est un signal significatif — cela correspond à environ 57 % de taux de victoire pour le 1.5 dans les confrontations directes contre le 1.0.

Le chiffre fait la une. Ce qui importe pour la production, c'est de savoir quels changements spécifiques l'ont provoqué. Nous avons fait tourner le 1.5 en parallèle du 1.0 dans l'espace de travail vidéo d'OmniArt, et le gain se concentre clairement sur quatre éléments que les créateurs ressentent immédiatement. Aucun n'est subtil.

Si vous découvrez Grok Imagine, commencez par le guide de présentation — il couvre en détail les six modes de génération, les patterns de prompt et le calcul des crédits. Cet article suppose que vous avez déjà produit quelques clips avec le 1.0 et que vous voulez savoir ce qui mérite d'être refait.

Comparaison rapide des caractéristiques : 1.0 vs 1.5

Caractéristique	Grok Imagine 1.0	Grok Imagine 1.5
Résolution maximale	720p	720p
Durée maximale	10 secondes	15 secondes
Formats d'image	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Audio	Natif, génération conjointe	Natif, génération conjointe — amélioré
Cohérence faciale	Niveau de base	Nettement améliorée
Extend from Frame	Continuation depuis la dernière image	Sélection explicite d'image, continuité améliorée
Base de génération d'image	FLUX.1 (Black Forest Labs)	FLUX.1 (Black Forest Labs)
Coût (480p)	10 crédits/s	10 crédits/s
Coût (720p)	15 crédits/s	15 crédits/s
Classement Arena	Plusieurs positions en dessous du 1er	1re place de l'Image-to-Video Arena

Le plafond de résolution et le tarif en crédits sont inchangés. Les gains se trouvent dans ce que le modèle accomplit à l'intérieur de ces contraintes.

Changement 1 : l'audio natif sonne comme une seule passe

Grok Imagine génère de l'audio depuis le 1.0 — dialogue, synchronisation labiale, effets sonores et musique d'ambiance, le tout construit à partir de tokens vidéo en une seule passe d'inférence, sans modèle audio séparé raccordé après coup. Dans la pratique, l'audio du 1.0 présentait deux défauts récurrents : un timing mécanique dans le dialogue (les mots arrivaient à intervalles réguliers, marquant des pauses aux limites grammaticales plutôt qu'aux points naturels de respiration) et une ambiance plate (scène de café avec un fond sonore indifférencié, sans variation spatiale).

Le 1.5 corrige ces deux problèmes. La même architecture en passe unique produit maintenant une intonation au niveau de la phrase — les formulations courtes et incisives se terminent par une intonation descendante, tandis que le discours explicatif plus long comporte une montée audible à mi-phrase avant la résolution. L'ambiance semble en couches : une scène de rue génère de la circulation au loin, des pas à proximité et le son étouffé d'une porte de boutique derrière le sujet. Ces effets ne sont pas post-traités ; ils sont générés avec la même logique séquentielle image par image que le moteur Aurora utilise pour le mouvement, où chaque image informe la suivante et l'environnement acoustique suit la trajectoire visuelle.

Prompt avec le 1.0 : « Un barista explique le processus de préparation à un client de l'autre côté du comptoir, fond de café, éclairage chaud. »

Résultat avec le 1.0 : le dialogue arrivait en rafales métronomiques, la machine à expresso tournait à un niveau constant tout au long du clip.
Résultat avec le 1.5 : l'explication du barista comporte des pauses naturelles en milieu de phrase, la machine à expresso monte en puissance quand une autre commande débute, la réponse murmurée du client est plus douce et positionnée spatialement plus loin de l'axe du microphone.

L'écart est le plus visible dans les clips à fort contenu dialogué. Si vous faites passer vos vidéos Grok 1.0 par un modèle audio séparé pour le travail vocal, le 1.5 comble la plupart de cet écart de manière native.

Changement 2 : 10 secondes devient 15 secondes

Grok Imagine 1.0 limitait les clips à 10 secondes. Le 1.5 relève ce plafond à 15 secondes, avec n'importe quelle durée entière de 1 à 15 prise en charge. Les cinq secondes supplémentaires peuvent sembler anodines. En pratique, c'est la différence entre un clip pour les réseaux sociaux qui nécessite une passe d'extension et un clip qui sort dès la première génération.

Le calcul des crédits change de façon significative pour les cas d'usage standards :

Cas d'usage	1.0 (max. 10s + extension jusqu'à 15s)	1.5 (15s natif)
15s TikTok, 480p	100 (10s) + 75 (5s extension) = 175	150
15s TikTok, 720p	150 (10s) + 112,5 (5s extension) = 262,5	225
10s plan produit, 720p	150	150 (inchangé)

Pour le format social le plus courant — un clip de 15 secondes — le 1.5 coûte environ 14 % de moins en 480p et 14 % de moins en 720p par rapport à l'approche générer-puis-étendre du 1.0, et vous évitez l'artefact de jonction qui apparaît parfois au point d'assemblage de l'extension.

Le mode Extension reste disponible dans le 1.5 pour dépasser les 15 secondes, mais vous ne payez les coûts d'extension que sur les séquences qui nécessitent vraiment plus de durée, et non parce que la génération de base a forcé une coupure.

Changement 3 : précision faciale et cohérence du personnage

C'est le changement le plus difficile à quantifier et le plus régulièrement mentionné dans les retours de la communauté. Grok Imagine 1.0 pouvait générer un visage convaincant dans la première image et le perdre ensuite — les traits se déformant entre les images, notamment lors des mouvements de tête, des transitions d'éclairage ou des mouvements rapides. Les personnages introduits via le Mode de référence voyaient leurs proportions faciales dériver au fil des clips plus longs.

Le 1.5 traite ce problème au niveau de l'architecture. La génération d'images séquentielles du moteur Aurora — où chaque image est informée par la précédente — préserve désormais les repères faciaux de façon plus stable lors des rotations et des changements d'éclairage. Le retour de la communauté est cohérent : les mouvements de tête qui produisaient auparavant des déformations inquiétantes se complètent désormais proprement à vitesse de lecture normale.

Avant/après avec un seul prompt en Mode de référence : « [@Image1] marche vers la caméra dans une ruelle brumeuse, visage clairement visible, se tourne légèrement à droite à 8 secondes, lumière de rue chaude venant d'en haut. »

1.0 : le sujet a maintenu une identité cohérente pendant la marche, puis le virage à droite a produit un décalage notable de la largeur de la mâchoire sur l'image du milieu de la rotation, qui s'est corrigé à la résolution.
1.5 : le même virage se complète sans l'artefact de correction. Les proportions de la mâchoire et des pommettes se maintiennent tout au long de la rotation.

Cela importe surtout pour les cas d'usage où le visage d'un personnage est le sujet principal — contenu de type talking head, narrations centrées sur un personnage, démonstrations de produit avec un porte-parole, et tout clip utilisant le Mode de référence pour ancrer une identité cohérente sur plusieurs plans.

Astuce

La cohérence du personnage se cumule dans le Mode Extension. Dans le 1.5, un clip étendu préserve la stabilité des repères faciaux établie lors de la génération originale. La jointure où l'extension s'assemble est moins détectable que dans le 1.0 car les deux segments partagent désormais la même base de géométrie faciale.

Changement 4 : Extend from Frame — enchaînez les clips jusqu'à la durée d'un court-métrage

Le Mode Extension dans le 1.0 ajoutait des images à la fin d'un clip, mais la surface de contrôle était limitée : vous donniez le clip au modèle et lui demandiez de continuer. Dans le 1.5, Extend from Frame ajoute une sélection explicite d'image — vous choisissez l'image finale spécifique depuis laquelle vous souhaitez continuer, et le modèle reprend depuis cet état visuel exact : même position du sujet, même direction d'éclairage, même trajectoire de caméra, mêmes conditions atmosphériques.

La différence est importante quand une génération produit une ouverture et un développement corrects, mais que les images finales s'éloignent de votre intention. Dans le 1.0, une image finale imparfaite signifiait l'accepter comme graine pour l'extension ou recommencer le clip entier. Dans le 1.5, vous pouvez sélectionner une image plus tôt dans la génération — le moment de composition plus propre que vous vouliez vraiment continuer — et étendre à partir de là.

Le flux de travail pratique pour les productions plus longues :

Générez un segment d'ouverture de 15 secondes. Vérifiez-le, identifiez la meilleure image de clôture.
Utilisez Extend from Frame, sélectionnez cette image, générez les 15 secondes suivantes.
Répétez jusqu'à atteindre la durée souhaitée.

Une chaîne de trois segments de 15 secondes produit 45 secondes de séquences avec le personnage, l'éclairage et l'état de la caméra préservés aux jonctions. Suffisant pour une démonstration de produit, une courte publicité ou une séquence d'introduction narrative — à partir d'un modèle facturant à la seconde à 10–15 crédits.

Note

Le Mode Extension dans OmniArt fonctionne sur plusieurs modèles, pas seulement sur Grok Imagine. Vous pouvez générer l'ouverture avec un modèle différent et utiliser Extend from Frame de Grok Imagine 1.5 pour la continuer, apportant les améliorations de cohérence du personnage à des séquences originaires d'ailleurs.

À quoi correspondent réellement les +52 Elo

L'écart dans l'Arena se décompose en ces quatre changements, pondérés par la fréquence à laquelle chacun apparaît dans la production quotidienne :

Changement	Impact sur le Elo	Où vous le ressentez
Naturel de l'audio	Élevé	Tout clip avec dialogue ou ambiance en couches
Durée native de 15s	Modéré	Formats sociaux de 15 secondes ; flux dépendants de l'extension
Cohérence faciale	Élevé	Talking heads, travail de personnage en Mode de référence, mouvements de tête
Extend from Frame	Modéré	Productions multi-segments, clips enchaînés

L'Arena teste spécifiquement l'image vers la vidéo — un still en entrée est animé. Dans ce contexte, la cohérence faciale et le naturel de l'audio sont les deux qualités que les votants en aveugle remarquent le plus, ce qui explique d'où vient l'essentiel du gain de Elo. La durée et Extend from Frame comptent davantage pour les utilisateurs expérimentés construisant des projets à plusieurs plans que pour le votant du test en aveugle regardant un clip de 5 secondes.

Faut-il refaire vos projets du 1.0 ?

En résumé : oui pour tout projet où le visage était le sujet principal, et oui pour tout ce que vous avez construit avec le schéma générer-puis-étendre pour atteindre 15 secondes. Pour le reste, la décision dépend du projet.

Refaites maintenant si :

Vous avez produit des clips de talking head ou centrés sur un personnage dans le 1.0 et vous avez remarqué une dérive faciale en milieu de clip. Les mêmes entrées du Mode de référence devraient produire des résultats nettement plus propres dans le 1.5.
Vous avez construit des clips de 15 secondes en 10s + 5s d'extension et rencontré des artefacts de jonction. La génération native de 15 secondes du 1.5 élimine le point d'assemblage.
L'audio était le dernier obstacle sur un clip autrement presque terminé. L'intonation naturelle et l'ambiance en couches du 1.5 résolvent les plaintes les plus courantes sans avoir à reprendre le côté visuel du prompt.

Pas la peine de refaire si :

Le clip était uniquement en mouvement, sans personnages ni dialogue — le plafond de qualité visuelle en 720p n'a pas changé, et les améliorations du comportement d'extension sont marginales pour une sortie en segment unique.
Vous utilisez beaucoup le Mode de modification — le Modify fait toujours descendre automatiquement toute entrée au-dessus de 854×480 à 480p avant traitement, et ce comportement est inchangé dans le 1.5.
L'original était un court plan B-roll atmosphérique (moins de 8s) sans personnages. L'amélioration de l'audio ambiant est réelle, mais insuffisante pour justifier une régénération au tarif de crédits actuel.

Avertissement

La limite de réduction à 480p du Mode de modification est inchangée dans le 1.5. Si vous devez éditer un clip 720p sans perte de résolution, effectuez la passe de modification avant votre génération finale en 720p, pas après.

Commencer sur OmniArt

Grok Imagine 1.5 est disponible dans l'espace de travail vidéo d'OmniArt aux côtés de V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 et Seedance 2.0. Aucun abonnement xAI séparé n'est requis — le même solde de crédits OmniArt couvre tous les modèles.

La façon la plus rapide de calibrer le 1.5 est d'exécuter un prompt que vous connaissez déjà depuis le 1.0. Même entrée, sortie côte à côte, avec les améliorations de visage et d'audio immédiatement visibles par rapport à votre référence. Commencez par là, puis décidez quels projets du 1.0 méritent vraiment d'être refaits.

Pour le descriptif complet des six modes, le calcul des crédits et les patterns de prompt du Mode de référence, consultez le guide Grok Imagine. Pour une comparaison multi-modèles montrant où se situe le classement image vers vidéo de Grok Imagine dans le paysage global de 2026, la sélection des meilleurs modèles image vers vidéo présente les classements actuels.

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA

Commencer gratuitement