guideTutoriels et guides pratiques7 min de lecture

Grok Imagine : guide créateur du modèle vidéo xAI en 2026

Guide pratique de Grok Imagine — six modes de génération, patterns de prompt, calcul de coût réel et quand le choisir plutôt que V6 ou Sora 2 en 2026.

Équipe OmniArt5 mai 2026

Grok Imagine est le modèle de génération vidéo et audio de xAI, lancé en janvier 2026 et accessible via OmniArt sans abonnement xAI séparé. C'est un produit différent du chatbot Grok — ils partagent un nom et rien d'autre. Ce guide couvre ce pour quoi Grok Imagine est conçu, les six modes de génération qui comptent, les patterns de prompt qui respectent chaque mode et le calcul de ce que les vrais projets coûtent réellement en crédits.

Ce qu'est Grok Imagine

Grok Imagine génère de la vidéo jusqu'à 720p avec audio natif en clips de 1–15 secondes. Le tour de force principal n'est pas la résolution — à 720p il ne se bat délibérément pas contre Sora 2 ou V6 sur la fidélité brute. Le tour de force principal est la surface workflow autour du modèle : six modes de génération qui partagent un même weight set et vous permettent de générer, étendre, restyler et modifier sans quitter le modèle.

Spec	Valeur
Résolution max	720p (utilisez V6 pour 1080p+)
Durée max	15 secondes par génération
Ratios	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Audio	Natif, généré aux côtés de la vidéo
Coût (480p)	10 crédits par seconde
Coût (720p)	15 crédits par seconde

Les six modes à connaître

Chaque mode est une façon différente de dire au modèle quel type d'entrée il traite. Choisir le bon mode est la majeure partie du travail prompt-engineering.

Text-to-Video

Le défaut. Écrivez un prompt, obtenez un clip. Idéal pour l'exploration concept, les mood boards et les brouillons social quand vous n'avez pas encore d'image de référence. Le coût est 10–15 crédits par seconde selon la résolution.

Image-to-Video

Anime une image fixe en préservant la composition d'entrée. La première frame est verrouillée sur votre image. Utilisez-le pour animer illustrations, photographie produit et maquettes design où la frame source est non négociable.

Reference Mode — le différenciateur

Reference Mode accepte 1–7 images comme ancres visuelles sans verrouiller la première frame. Vous taguez les images avec @Image1, @Image2, @Image3 et les référencez dans le prompt. C'est ce que la plupart des autres modèles vidéo n'ont pas — la plupart verrouillent soit la première frame (image-to-video), soit n'acceptent aucune référence (text-to-video). Reference Mode se situe entre les deux, et c'est le chemin le plus propre vers la cohérence personnage sur plusieurs plans.

Le coût est 15 crédits par seconde en 480p, 22,5 en 720p.

Extend Mode

Ajoute 2–10 secondes à un clip existant. L'entrée est un MP4 entre 2 et 15 secondes. La sortie est un clip continu unique ; la facturation ne couvre que la portion ajoutée. L'astuce cross-modèle : Extend Mode fonctionne sur des vidéos générées par n'importe quel modèle dans l'espace vidéo OmniArt, pas seulement Grok.

Modify Mode

Édite un clip existant sans le régénérer — swaps de fond, changements lumière, shifts couleur sur objets spécifiques, effets météo. L'entrée est plafonnée à 8 secondes et auto-scale à 854×480, ce qui signifie que les sources haute résolution perdent du détail dans l'aller-retour. Utilisez Modify sur des clips que vous avez générés en 480p de toute façon.

Editing Suite — Restyle, Object Manipulation, Sketches to Life

Un fourre-tout d'opérations post-génération. Restyle applique des styles artistiques (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic). Object Manipulation ajoute, retire ou swap des éléments. Sketches to Life anime des dessins au trait. Add Performance greffe de l'animation personnage sur des figures statiques. Utile pour créer plusieurs variations depuis un seul clip source.

Des prompts qui respectent le modèle

Quatre habitudes font monter la qualité plus vite que des prompts plus longs.

Utilisez le langage cinématographique

Grok Imagine a six presets caméra intégrés : Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Ils s'activent plus précisément quand les prompts utilisent des termes de cinématographie.

Plus faible	Plus fort
"A city street at night with neon signs and people walking"	"Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing"

Taguez les références explicitement

Reference Mode se dégrade quand le prompt est générique. Liez chaque référence à un rôle.

"@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel."

Front-load l'action

La génération s'exécute séquentiellement sur la durée. Si le climax est à la fin d'un clip de 5 secondes, le modèle peut ne pas le finir. Remontez l'action.

Plus faible	Plus fort
"A quiet forest scene with birds, then suddenly a deer leaps across a stream"	"A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches"

Cadencez les clips 10–15 secondes sur une timeline

Pour les clips plus longs, écrivez le timing dans le prompt.

"Slow zoom into abandoned library (0–5s), dust particles catch light beams (5–10s), book falls from shelf (10–12s), pages flutter (12–15s)."

Ce que cela coûte réellement

Trois scénarios de plan réels, tarifés en crédits OmniArt.

Une vidéo produit TikTok de 15 secondes

Étape	Mode	Résolution	Coût
Génération initiale	Text-to-Video	480p, 10s	100
Extend	Extend	480p, 5s	75
Total (une révision)			175–275

Un storyboard marque en 3 plans

Étape	Mode	Résolution	Coût
Plan 1 avec 2 refs	Reference, 8s	720p	180
Plan 2, mêmes refs	Reference, 8s	720p	180
Plan 3, mêmes refs	Reference, 6s	720p	135
Fix lumière sur Plan 2	Modify, 8s	720p	180
Total			675

Une passe restyle

Étape	Mode	Résolution	Coût
Restyle en Anime	Restyle, 8s	480p	120

Quand choisir un autre modèle

Grok Imagine est le bon outil pour le social court format, le sketch-to-life et les histoires multi-plans pilotées par référence en 480p–720p. C'est le mauvais outil quand :

Besoin	Meilleur choix
1080p ou plus	V6, BACH, Veo 3
Contrôle objectif avancé (focale, DOF, aberration)	V6
Clips 16–20 secondes en une passe	Sora 2
Dialogue et musique grade production	Modèle audio dédié + montage
Préservation source haute résolution dans les éditions	Évitez Modify Mode

Patterns workflow qui livrent

La façon dont Grok Imagine paie sur OmniArt n'est pas comme générateur standalone — c'est comme couche d'itération. Deux patterns rapportent le plus.

Pattern 1 — générer ailleurs, affiner ici. Rendez le clip master avec V6 ou Sora 2 en plus haute résolution, puis utilisez Extend, Restyle et Modify pour faire tourner variations et ajouts dans Grok à moindre coût.

Pattern 2 — Reference Mode pour les verrous personnage. Quand une campagne marque a besoin du même personnage sur cinq plans, verrouillez l'identité avec une image ancre dans @Image1, puis générez chaque plan avec la même référence en Reference Mode. Moins cher que re-roll Sora 2 pour chaque plan.

Avertissement

Modify Mode auto-scale toute entrée au-dessus de 854×480 vers le bas en 480p avant traitement. Si vous devez éditer un clip 1080p sans perdre la résolution, rendez l'édition ailleurs ou faites l'édition avant l'étape upscale.

Commencer sur OmniArt

Grok Imagine est disponible dans l'espace vidéo OmniArt aux côtés de V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 et Seedance 2.0. Même solde crédits, même upload référence, même grammaire prompt. Commencez en Text-to-Video pour apprendre les presets caméra, puis passez à Reference Mode une fois que vous avez un personnage ou produit à verrouiller.

Associez ce guide au décryptage cinématographique BACH pour le travail narratif haute fidélité, ou à la shortlist image-to-video si vous choisissez entre modèles pour un plan spécifique.

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA

Commencer gratuitement