guideTutoriels et guides pratiques8 min de lecture

Comment rédiger un prompt Gemini Omni Flash pour une vidéo de 10 secondes

Gemini Omni Flash a une surface de prompt inhabituelle : pas de paramètre négatif, deux ratios d'image, anglais uniquement et deux modes de prompt distincts. Voici comment bien rédiger les deux.

Équipe OmniArt1 juil. 2026

La plupart des guides de prompt pour la vidéo IA vous apprennent à écrire une seule chose : un paragraphe riche et détaillé que vous remettez une fois au modèle. Gemini Omni Flash brise cette hypothèse. Son API développeur (disponible depuis le 30 juin) est construite autour de deux actes de prompt différents — la première génération, puis une conversation continue de modifications qui remodèlent chacune le même clip. Rédigez pour l'un en ignorant l'autre et vous laissez la majeure partie du modèle inexploitée.

La surface de prompt d'Omni Flash est aussi inhabituelle par ce qu'elle retire. Il n'y a pas de champ de prompt négatif, pas de curseur de température, pas d'instruction système, et seulement deux ratios d'image. Ce ne sont pas des manques à contourner à l'aveugle — chacun change la manière dont vous devriez formuler un prompt. Ce guide couvre les deux modes et les contraintes qui les façonnent.

Note

Au 1er juillet 2026, Gemini Omni Flash est disponible via Google AI Studio, l'API Gemini, l'app Gemini et Google Flow — pas encore dans le workspace d'OmniArt. Les sections ci-dessous décrivent la rédaction de prompts directement dans les outils de Google ; la section finale indique quelles habitudes se transposent aux modèles vidéo actifs sur OmniArt aujourd'hui.

Deux modes de prompt, pas un seul

Chaque session Omni Flash comporte deux types de prompt, et ils récompensent des écritures différentes.

Le prompt de première génération est un brief complet pour un unique plan de 10 secondes : sujet, mouvement, caméra, lumière, son, style. Il se comporte comme n'importe quel bon prompt texte-vers-vidéo ou image-vers-vidéo — placez le détail en tête, soyez précis, décrivez tout le plan d'un coup.

L'instruction d'édition conversationnelle est l'inverse. Elle est courte, elle nomme exactement une modification, et elle suppose que le modèle conserve déjà le clip précédent en contexte. « Passe l'éclairage en golden hour. » « Remplace la berline par un pick-up. » Le modèle applique la modification tout en préservant tout ce que vous n'avez pas mentionné — via le previous_interaction_id qui transporte l'état de session à travers jusqu'à trois modifications séquentielles au moyen de l'API Interactions. Empilez trois modifications dans une seule instruction d'édition et vous perdez la précision qui rend ce mode intéressant.

Le modèle mental : composez dans le premier prompt, dirigez dans les suivants. Obtenez un clip de base solide, puis affinez-le comme vous briefiez un réalisateur en plein tournage — une note à la fois.

Les contraintes de l'API qui façonnent votre formulation

La liste de paramètres d'Omni Flash est volontairement courte. Chaque omission a une conséquence sur le prompt :

Contrainte	Ce que cela signifie pour le prompt
Pas de champ de prompt négatif	Formulez les exclusions dans le prompt lui-même — « une rue déserte, aucun piéton, aucune circulation » plutôt qu'une liste négative séparée
Pas de température / top_p / instruction système	Vous ne pouvez pas ajuster la variance ni fixer une règle de style persistante — intégrez le ton et le style dans le texte du prompt à chaque fois
Ratio d'image : 9:16 ou 16:9 uniquement	Choisissez l'orientation dès le départ ; il n'y a pas d'option carrée ni cinéma-large, alors cadrez pour le vertical ou l'horizontal dès le premier mot
Audio décrit, jamais téléversé	Vous ne pouvez pas lui remettre une piste à suivre — vous décrivez le son voulu avec des mots (voir ci-dessous)
Anglais entièrement pris en charge ; autres langues non testées	Rédigez les prompts en anglais pour des résultats prévisibles
Plafond strict de 10 secondes	Une action claire par génération — pas une liste de plans

Avertissement

Omni Flash n'a pas de téléversement de référence audio. Vous ne pouvez pas lui fournir un lit musical ni un échantillon de voix à synchroniser. Il génère une piste audio par défaut, et votre seul levier de contrôle réside dans les mots du prompt — la conception sonore doit donc être écrite, pas jointe.

Un modèle pour la première génération

Comme 10 secondes ne contiennent qu'un seul plan, les meilleurs premiers prompts décrivent un unique instant continu avec chaque couche spécifiée. Six emplacements couvrent presque n'importe quel plan :

Sujet — qui ou quoi est à l'écran, décrit de manière concrète
Mouvement — l'unique action qui se déroule tout au long du clip
Caméra — un seul mouvement, pas une séquence (« lent travelling avant », « plan large fixe »)
Éclairage — direction, qualité, moment de la journée
Conception sonore — l'audio que vous voulez générer, en mots
Style — palette, époque, référence cinématographique, texture

Un exemple concret :

« Un porte-filtre à café en céramique posé sur un comptoir en chêne clair, la vapeur s'élevant tandis qu'un café foncé coule dans la carafe en verre en dessous. Lent travelling avant sur l'écoulement. Douce lumière matinale venant d'une fenêtre à gauche du cadre, chaude et diffuse. Son : léger filet d'eau qui s'écoule, ambiance lointaine de cuisine, aucune musique. Palette éditoriale sobre, faible profondeur de champ, tourné avec un objectif fixe lumineux. »

Remarquez que les exclusions vivent à l'intérieur de la phrase (« aucune musique »), que la caméra effectue un seul mouvement et que le son est explicité. Voilà toute la discipline.

Édition conversationnelle : le vocabulaire qui fait mouche

Une fois que vous avez un clip de base, les modifications sont là où Omni Flash prend l'avantage sur les workflows de type « générer et jeter ». Limitez chaque instruction à une seule intention, et appuyez-vous sur un vocabulaire de verbes cohérent que le modèle lit sans ambiguïté :

Rééclairer — « passe en golden hour », « ajoute une lumière de contour froide venant de l'arrière »
Remplacer — « échange le porte-filtre contre une cafetière à piston »
Restyler — « donne-lui l'aspect d'une pellicule des années 1970 »
Recolorer — « change le mug pour un noir mat »
Réajuster le rythme — « ralentis l'écoulement », « laisse la vapeur s'attarder plus longtemps »

Deux règles gardent le fil cohérent. Une modification par tour — le modèle préserve ce que vous ne mentionnez pas, donc une modification à note unique est à la fois plus prévisible et plus facile à annuler en reformulant. Et construisez sur le langage du tour précédent — réutilisez les noms que vous avez établis (« le mug », « l'écoulement ») pour que le modèle s'ancre sur les mêmes éléments plutôt que de réinférer la scène.

Astuce

La chaîne de trois modifications est un budget, pas une suggestion. Concevez le prompt de base pour qu'il nécessite le moins de suivis possible — une première génération solide réserve vos tours d'édition à de véritables changements créatifs, et non à corriger des choses que le premier prompt aurait pu spécifier.

Composer avec les limites actuelles

Quelques limites ne se résolvent pas par le prompt, et il vaut mieux composer en les gardant à l'esprit plutôt que de lutter contre elles :

Plafond de 10 secondes. Il n'y a pas d'extension de scène dans l'API, alors n'écrivez pas de prompts qui impliquent un arc plus long. Concevez un seul plan qui se suffit à lui-même.
La cohérence des personnages lors des changements de scène est un point faible reconnu. Si la ressemblance compte, gardez les modifications au sein de la même scène plutôt que de demander au modèle de relocaliser un personnage dans un nouveau décor.
Les vidéos de référence de plus de 3 secondes ne sont pas entièrement traitées. Gardez tout clip de référence court et ciblé.
Pas de référencement multi-vidéo ni d'édition de la voix — les deux ne sont pas pris en charge, alors prévoyez ces étapes dans un outil distinct plutôt que dans le prompt.

Aucune de ces limites n'est rédhibitoire pour un outil d'itération rapide et de format court. Elles signifient simplement qu'Omni Flash récompense les prompts calibrés sur ce qu'il fait bien : un seul plan resserré, affiné par la conversation.

Ce qui se transpose à OmniArt aujourd'hui

Omni Flash n'est pas encore dans le workspace d'OmniArt, mais presque toutes les habitudes ci-dessus se transposent aux modèles vidéo qui le sont — parce que la discipline sous-jacente (un seul plan clair, la précision plutôt que la soupe de mots-clés, le son écrit dans le prompt) est indépendante du modèle.

La génération pilotée par référence correspond directement à Seedance 2.0, actif sur OmniArt, qui accepte jusqu'à neuf images, trois vidéos et trois fichiers audio liés à des rôles avec la syntaxe @image1 / @video1 — l'idée de « composer à partir d'assets », avec plus d'entrées qu'Omni Flash n'en propose.
Le langage caméra cinématographique correspond à Veo 3.1, qui interprète les verbes de mouvement comme « drift », « glide » et « dolly in » avec retenue.
Le modèle à six emplacements (sujet, mouvement, caméra, lumière, son, style) est le même squelette qui produit des résultats propres sur chaque modèle vidéo du workspace.

Ouvrez le workspace vidéo sur OmniArt, choisissez le modèle qui convient au plan, et rédigez le premier prompt comme un unique plan complet. Quand Omni Flash arrivera, le workflow à deux modes ci-dessus est la partie que vous ajouterez — l'art du prompt, lui, est déjà le même.

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA

Commencer gratuitement