L'entrée toutes-modalités de Gemini Omni Flash : ce qu'elle fait vraiment
L'omni-modalité est l'argument phare de Gemini Omni Flash, mais l'API livrée est plus étroite que le marketing. Voici ce que l'entrée toutes-modalités change réellement à votre brief.

Le mot qui portait le plus de poids dans le lancement de Gemini Omni Flash était « Omni » — la promesse d'un seul modèle auquel vous pouvez fournir du texte, des images, de l'audio et de la vidéo tous en même temps, dans un seul prompt. C'est un argument réellement différent des modèles vidéo à entrée unique qui l'ont précédé, et c'est la raison pour laquelle le modèle mérite son nom. Mais la version qui a été livrée dans l'API développeur est plus étroite que le cadrage de la keynote, et cet écart compte si vous prévoyez un vrai travail autour d'elle.
Cet article distingue ce que le toutes-modalités vous apporte réellement aujourd'hui de ce qui reste aspirationnel — puis en vient au point le plus utile : comment l'entrée multimodale change tout bonnement la manière dont vous rédigez un brief.
Ce que « toutes-modalités » signifie réellement
La plupart des modèles vidéo n'acceptent qu'un seul type de pilotage. Vous écrivez du texte, ou vous fournissez une seule image de référence, et le modèle travaille à partir de cela. L'entrée toutes-modalités signifie qu'une grammaire de prompt unique accepte plusieurs modalités ensemble et renvoie un résultat cohérent qui les respecte toutes : une image de référence pour l'apparence, un court clip pour le mouvement, et une direction écrite pour tout le reste — combinés, non pas choisis les uns au détriment des autres.
Le glissement va de décrire un plan avec des mots à le composer à partir d'assets. Voilà la véritable capacité, et c'est pourquoi « omni-modal » n'est pas du pur marketing. La question est de savoir quelle part en est active.
L'argument face à l'API livrée
Voici la matrice honnête de la version préliminaire actuelle, tirée directement de la documentation de l'API :
| Entrée | Statut | Notes |
|---|---|---|
| Prompt texte | Pris en charge | La colonne vertébrale de chaque génération |
| Image de référence | Pris en charge | Texte-vers-vidéo, image-vers-vidéo et référence de sujet |
| Vidéo de référence | Pris en charge, avec une réserve | Les références de plus de 3 secondes ne sont pas entièrement traitées |
| Référence audio | Non pris en charge | Vous ne pouvez pas téléverser un son ou une voix que le modèle doit suivre |
| Références vidéo multiples | Non pris en charge | Un seul clip de référence par génération |
| Prompts hors anglais | Non testé | L'anglais est la seule langue entièrement prise en charge |
Avertissement
Le manque audio est celui qui risque le plus de faire dérailler un plan. Omni Flash génère une piste audio par défaut, mais « toutes-modalités » ne signifie pas lui remettre un lit musical, une voix off ou un enregistrement d'ambiance à synchroniser. L'audio est une sortie que vous pilotez avec des mots, pas une entrée que vous fournissez.
Donc la lecture exacte : le toutes-modalités aujourd'hui, c'est texte + image + vidéo en entrée, vidéo (avec audio généré) en sortie. La moitié « audio en entrée » de la promesse omni-modale est délibérément retenue — en cohérence avec les fonctions d'édition de la parole dans la vidéo et d'avatar que Google a mises de côté au lancement pour des raisons de sécurité. C'est un vrai changement de capacité par rapport aux modèles à entrée unique ; ce n'est simplement pas encore le tableau complet toutes-modalités-vers-toutes-modalités que le nom laisse entendre.
Ce que l'entrée multimodale change à votre brief
Dès lors que vous composez à partir d'assets au lieu de décrire en prose, le brief lui-même change de forme. Trois entrées font des travaux différents, et le savoir-faire consiste à assigner chacune à ce qu'elle fait de mieux :
- L'image de référence porte l'apparence — le sujet, la palette, le cadrage que vous aimez déjà.
- La vidéo de référence porte le mouvement — un mouvement de caméra ou une action que vous voulez retrouver en écho.
- Le texte porte l'intention et tout ce que les assets ne montrent pas déjà — l'ambiance, les changements, ce qui n'est dans aucune des deux références.
L'effet pratique est que vous cessez d'essayer de traduire une image en adjectifs. Au lieu d'écrire « un gros plan chaud à faible profondeur de champ avec un lent travelling avant », vous fournissez l'image qui ressemble déjà à cela et le clip qui bouge déjà comme cela, et vous consacrez vos mots à ce qui est nouveau. Pour quiconque a lutté pour décrire une esthétique précise en texte, c'est le déblocage du workflow.
Les quatre modes de tâche, et comment ils se combinent
L'API expose quatre types de task, et ils correspondent proprement à l'idée de composer à partir d'assets :
text_to_video— description pure, aucun asset. Le repli quand vous partez de rien.image_to_video— animer une image fixe. Le point d'entrée le plus courant : une image forte devient la première image du mouvement.reference_to_video— reporter un sujet ou un style d'une référence dans une nouvelle génération.edit— le mode conversationnel et à état qui révise le clip précédent tout en préservant ce que vous n'avez pas modifié.
Le flux prévu les enchaîne : générez ou animez une base avec l'un des trois premiers, puis passez en edit et affinez par la conversation. C'est la même forme que le couplage Nano Banana 2 Lite vers Omni Flash de Google — éditer une image fixe, puis l'animer — étendu sur plusieurs tours.
La nuance audio, explicitée
Comme l'audio ne peut pas être fourni, la conception sonore devient une tâche d'écriture. Le modèle produit les dialogues, les effets et l'ambiance à partir de ce que votre prompt décrit — « pluie douce sur une vitre, aucune musique » ou « un unique clic léger, puis le silence de la pièce ». Vous obtenez un contrôle significatif, mais c'est un contrôle descriptif, et cela implique deux choses pour la planification :
- Si votre projet a besoin que la vidéo générée corresponde à une piste existante — un morceau sous licence, une signature sonore de marque, une voix off enregistrée — cette synchronisation se fait dans une étape audio distincte, pas à l'intérieur d'Omni Flash.
- Si vous avez seulement besoin d'un son original et adapté, bien le décrire dans le prompt vous y amène sans téléversement.
Où se situe OmniArt aujourd'hui
Le workflow « composer à partir d'assets » n'est pas quelque chose qu'il faut attendre d'Omni Flash pour l'essayer — il tourne déjà sur les modèles actifs dans le workspace vidéo d'OmniArt, et sur un point ils vont plus loin.
Seedance 2.0, disponible sur OmniArt dès maintenant, a été bâti autour de cette idée précise : il accepte jusqu'à neuf images, trois clips vidéo et — c'est notable — trois fichiers audio dans un seul prompt, chacun lié à un rôle avec la syntaxe @image1 / @video1 / @audio1. Cela inclut l'entrée de référence audio qu'Omni Flash retient. Si votre brief dépend de la fourniture d'un son précis au modèle, ce chemin existe aujourd'hui.
Et la direction du mouvement est claire dans tout le domaine : Seedance 2.5, annoncé en juin, pousse la même architecture de référence jusqu'à 50 entrées multimodales à la fois. L'entrée toutes-modalités n'est pas l'histoire d'un seul modèle — c'est la direction que prend la vidéo IA dirigée. Omni Flash a nommé l'idée ; le workspace vous permet déjà de la pratiquer.
Ouvrez le workspace vidéo sur OmniArt, assemblez votre jeu de références, et laissez les assets porter l'apparence et le mouvement pendant que vos mots portent l'intention. Voilà le brief toutes-modalités, disponible dès maintenant.
Prêt à créer ?
Commencez à générer du contenu incroyable avec l’IA