guideTutoriels et guides pratiques13 min de lecture

8 prompts Grok Imagine qui fonctionnent vraiment

Huit prompts prêts à copier pour Grok Imagine 1.5 en image et vidéo, conçus avec le style de langage naturel de FLUX.1 selon la structure Sujet + Action + Caméra + Style + Audio. Ce que chaque prompt produit et pourquoi il fonctionne, dans OmniArt.

Équipe OmniArt9 juin 2026

Grok Imagine 1.5 a mis à jour la base d'image vers FLUX.1 de Black Forest Labs, et ce changement a une implication concrète sur la façon dont vous rédigez vos prompts : le modèle répond à la description en langage naturel comme un photographe lit un brief, et non comme les anciens modèles analysaient des listes de mots-clés. Les huit prompts ci-dessous sont prêts à copier — collez-les dans l'espace de travail Grok Imagine d'OmniArt, ajustez les détails et générez. Chaque carte inclut le texte exact du prompt, ce qu'il produit et une note créative sur pourquoi la structure fonctionne.

Pour la théorie générale des prompts sur tous les modèles OmniArt, consultez comment rédiger de meilleurs prompts. Pour le traitement approfondi des six modes de génération de Grok Imagine et le calcul des coûts, consultez le guide du créateur Grok Imagine. Cet article porte spécifiquement sur Grok Imagine 1.5 — la version FLUX.1 — et les techniques de prompt qu'il valorise.

Ce que Grok Imagine 1.5 a changé dans la rédaction des prompts

Le modèle de base FLUX.1 est entraîné différemment des architectures texte-vers-image antérieures. Il analyse bien la prose connectée et tend à sous-répondre aux piles de mots-clés purs. Cinq habitudes améliorent la qualité de façon la plus fiable :

Le langage naturel plutôt que les piles de mots-clés. Les phrases complètes surpassent les adjectifs séparés par des virgules. « Une rue à l'heure bleue, éclairée par le bourdonnement d'une enseigne de supérette » bat « rue, nuit, néon, cinématique, 4K ».
Les références précises plutôt que les adjectifs vagues. « Pris avec un Fujifilm XT4, 23mm f/2 » en dit plus au modèle que « photo de haute qualité ». Les noms d'équipements et les types de pellicule ont un vrai poids dans l'espace latent.
Les termes de couleur exacts plutôt que « coloré ». « Bleu électrique et rose vif » produit une palette délibérée. « Coloré » produit un bruit moyenné.
L'heure exacte plutôt que « heure dorée ». « Fin octobre, 17h45, soleil à 6° au-dessus de l'horizon » indique au modèle l'angle et la chaleur précis de la lumière. « Heure dorée » est ambigu selon les saisons et les latitudes.
Structure vidéo : Sujet + Action + Caméra + Style + Audio. Mettez le sujet et l'action principaux dans les 20–30 premiers mots. Un seul focus stylistique surpasse un mélange. Itérez progressivement — changez une variable par génération jusqu'à ce que le résultat se fixe, puis poussez davantage.

Pour une analyse complète du vocabulaire cinématographique qui se transpose à la vidéo, le guide des prompts vidéo IA cinématographique couvre en profondeur le choix des objectifs, les mouvements de caméra motivés et le langage de l'éclairage.

Les 8 prompts

1. Photo de produit cinématographique (image)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Ce que ça produit : une image statique propre et dirigée artistiquement qui se lit comme de la photographie de produit professionnelle plutôt que comme un rendu IA.

Pourquoi ça fonctionne : la référence au Fujifilm XT4 ancre la science des couleurs et le rendu du capteur dans un look réel spécifique. L'angle de la lumière est spécifié numériquement, ce qui empêche le modèle de recourir par défaut à un éclairage diffus en plafond. Limiter la palette à deux couleurs — lumières ambrées chaudes, ombres bleu-gris froides — empêche le modèle d'introduire une troisième teinte concurrente.

2. Gros plan de personnage avec audio (vidéo)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Ce que ça produit : un moment de personnage avec l'audio natif de Grok Imagine 1.5 — le modèle génère le dialogue, la synchronisation labiale et le son ambiant en une seule passe d'inférence.

Pourquoi ça fonctionne : la ligne de dialogue est suffisamment courte pour une synchronisation labiale propre en 8 secondes. Deux sources lumineuses néon séparées et nommées (rose en haut, cyan à droite) donnent au modèle une carte lumineuse claire et évitent la moyenne générique « ville néon ». « Pas de drame cinématographique » est une contrainte négative qui guide l'atmosphère avec plus de précision qu'un adjectif positif.

Astuce

Limitez le dialogue parlé à une ou deux phrases courtes dans les clips de moins de 10 secondes. Des répliques plus longues occupent la durée disponible et le modèle peut accélérer la diction ou couper l'audio prématurément.

3. Environnement atmosphérique — clip d'ambiance (vidéo)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Ce que ça produit : un clip d'ambiance pour poser l'atmosphère, idéal comme image de fond, matériel de transition ou scène d'ouverture.

Pourquoi ça fonctionne : « début novembre, 7h du matin » est plus précis que « matin brumeux ». Le push est décrit comme « imperceptible » et « dérivant sur le souffle », ce qui communique le rythme avec plus de précision que « push lent vers l'avant ». Demander l'absence de musique évite que l'audio utilise une musique de fond par défaut — le modèle génère une véritable ambiance de style enregistrement de terrain.

4. Vidéo sociale verticale au rythme soutenu — révélation de produit (vidéo)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Ce que ça produit : un clip social 9:16 percutant conçu pour TikTok, Reels ou Shorts — révélation de produit en coupe rapide avec audio natif.

Pourquoi ça fonctionne : spécifier 9:16 au début définit le ratio d'aspect avant tout le reste dans le prompt. La timeline est écrite explicitement (« 0–2s / 2–8s »), ce qui aide le modèle à rythmer correctement les deux temps plutôt que de les fusionner en un seul mouvement. Nommer les événements audio spécifiques (son d'impact, tonalité de synthétiseur) produit un design sonore plus intentionnel que « ajouter des effets sonores ».

Avertissement

Les clips Grok Imagine 1.5 durent jusqu'à 15 secondes. Pour le contenu social, limitez les clips à 8–10 secondes maximum — le mouvement du modèle est le plus propre dans cette plage et les fenêtres d'attention des plateformes sociales sont courtes. À 720p, un clip de 8 secondes coûte 120 crédits sur OmniArt.

5. Illustration stylisée (image)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Ce que ça produit : une illustration graphique aux couleurs limitées qui ressemble à un vrai procédé d'impression plutôt qu'à de l'art numérique générique.

Pourquoi ça fonctionne : nommer la technique d'impression (Risograph) et ses contraintes spécifiques (deux couleurs d'encre, formes plates, pas de dégradés, décalage de repère d'encre) donne au modèle un brief technique complet. Le « décalage de repère d'encre » est le type de détail de processus physique qui ancre le rendu dans une esthétique du monde réel — c'est l'équivalent FLUX.1 de nommer un type de pellicule. Sans lui, le modèle a tendance à ajouter des dégradés ou à mélanger les couleurs.

6. Mouvement de caméra dynamique — recul de drone (vidéo)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Ce que ça produit : un plan de révélation soutenu de 15 secondes — la durée maximale de clip du modèle — construit autour d'un seul mouvement de caméra motivé.

Pourquoi ça fonctionne : ce prompt utilise la durée complète de 15 secondes pour un seul mouvement continu, qui est la façon la plus fiable d'obtenir un résultat propre à cette durée. Le recul est contraint à une élévation constante (sans inclinaison), ce qui empêche le modèle d'improviser un second axe de caméra et de créer un mouvement saccadé. « Couleur de style LOG, léger vignettage d'objectif » code un look de vraie caméra sans exiger des noms d'équipements spécifiques.

7. Mode stylisé — portrait pellicule (image)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Ce que ça produit : un portrait photographique argentique avec un rendu des couleurs vintage précis — grain authentique, halation et dérives de couleur propres à une pellicule périmée.

Pourquoi ça fonctionne : « Kodak Portra 400 périmée » est l'une des références de style en une seule phrase les plus fortes dans l'espace latent des images — elle porte un ensemble complet d'attentes tonales. Spécifier la dérive colorimétrique (« les verts légèrement décalés vers le jaune olive ») évite le grain vintage générique et guide la corruption exacte de palette associée à la pellicule périmée. Le recadrage serré et un ratio d'aspect spécifique (4:5) produisent un portrait qui ressemble à un vrai tirage photo.

8. Environnement immersif — pluie (vidéo)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Ce que ça produit : un clip environnemental immersif en point de vue unique — puissant comme plan d'ouverture ou comme pièce d'atmosphère autonome.

Pourquoi ça fonctionne : « fin juin, 22h00 » spécifie la saison exacte, la sensation de température (pluie chaude estivale) et le niveau d'obscurité. Le cycliste qui passe est posé comme un événement spécifique à un moment précis (« environ 2 secondes au milieu du clip »), ce qui donne au modèle une ancre narrative sans demander une action complexe de personnage. L'audio est donné en trois couches séparées (pluie sur le verre, crissement de pneu lointain, moto), ce qui tend à produire un design sonore plus soigné qu'une seule instruction « ambiance pluie urbaine ».

Utiliser ces prompts sur OmniArt

Les huit prompts fonctionnent avec Grok Imagine 1.5 dans l'espace de création d'OmniArt — aucun abonnement xAI séparé n'est requis. Les prompts d'image (1, 5, 7) vont dans l'espace image ; les prompts vidéo (2, 3, 4, 6, 8) vont dans l'espace vidéo sous Grok Imagine.

Quelques notes pratiques pour les exécutions sur OmniArt :

Commencez en 480p pour itérer. En 480p, la vidéo coûte 10 crédits par seconde. Une fois la structure correcte, passez à 720p (15 crédits par seconde) pour la prise finale.
Utilisez le mode Extension pour allonger. Le clip d'ambiance (prompt 3) et le recul de drone (prompt 6) peuvent être prolongés jusqu'à 15 secondes supplémentaires en utilisant le mode Extension de Grok Imagine — le même modèle, facturé uniquement pour la partie ajoutée.
Utilisez le mode Modification pour les corrections ciblées. Si l'éclairage d'un résultat est presque bon mais qu'un élément est décalé, le mode Modification vous permet de décrire le changement en texte sans régénérer le clip complet. Conservez les clips source en 480p avant de les passer en Modification — le mode limite l'entrée à 854×480.
Cohérence de personnage entre les plans : si vous générez plusieurs plans du même personnage (style du prompt 2), utilisez le mode Référence avec un portrait en gros plan comme @Image1 et redécrivez le personnage dans chaque nouveau prompt. Le mode Référence de Grok Imagine 1.5 est le chemin le plus direct vers la cohérence sans dépendre d'un modèle ajusté.

Pour une analyse complète des six modes de génération de Grok Imagine, les scénarios de coût et quand passer à un modèle différent, consultez le guide complet Grok Imagine. Pour le vocabulaire cinématographique plus large qui se transpose à n'importe quel prompt vidéo, le guide des prompts vidéo IA cinématographique mérite d'être mis en favori aux côtés de celui-ci.

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA

Commencer gratuitement