industryモデルとインサイト12分で読めます

Gemini Omni Flashのany-to-any入力：実際にできること

オムニモーダルはGemini Omni Flashの看板ですが、実際に公開されたAPIはマーケティングより範囲が狭いのが実情です。any-to-any入力がブリーフの書き方を本当はどう変えるのかを解説します。

OmniArt チーム2026年7月1日

Gemini Omni Flashのローンチで最も重い役割を担っていた言葉が「Omni」でした。テキスト、画像、音声、動画を一度に、1つのプロンプトで渡せる単一モデルという約束です。これは、それ以前の単一入力の動画モデルとは本当に異なる打ち出し方であり、このモデルがその名にふさわしい理由でもあります。しかし開発者向けAPIで公開されたバージョンは、基調講演の枠組みよりも範囲が狭く、このモデルを軸に実際の制作を計画するなら、その差は重要です。

本記事では、any-to-anyが今日実際にもたらすものと、まだ理想の域を出ないものを切り分けます。そのうえで、より有益な論点、すなわちマルチモーダル入力がブリーフの書き方そのものをどう変えるのか、へと話を進めます。

「any-to-any」が実際に意味すること

ほとんどの動画モデルは、1種類の舵取りしか受け付けません。テキストを書くか、1枚のリファレンス画像を用意するかして、モデルはそこから作業します。any-to-any入力とは、1つのプロンプトの文法が複数のモダリティをまとめて受け付け、そのすべてを尊重した一貫性のある結果を返す、ということです。見た目を決めるリファレンスフレーム、動きを与える短いクリップ、そのほかすべてを担う文章による指示。これらを、どれか一つを選ぶのではなく、組み合わせて使います。

この変化は、ショットを言葉で描写することから、アセットから構成することへの移行です。それこそが本当の能力であり、「オムニモーダル」が単なるマーケティングではない理由です。問題は、そのうちどれだけが実際に使えるのか、という点にあります。

打ち出しと、公開されたAPI

現時点のプレビューについて、API自身のドキュメントに基づく正直なマトリクスを示します。

入力	ステータス	補足
テキストプロンプト	対応	あらゆる生成の基盤
画像リファレンス	対応	テキストから動画、画像から動画、被写体リファレンス
動画リファレンス	対応、ただし注意あり	3秒を超えるリファレンスは完全には処理されない
オーディオリファレンス	非対応	モデルに合わせさせるための音声や声をアップロードできない
複数の動画リファレンス	非対応	1回の生成につきリファレンス用クリップは1本のみ
英語以外のプロンプト	未検証	完全に対応している言語は英語のみ

警告

オーディオのギャップは、計画を狂わせる可能性が最も高い点です。Omni Flashはデフォルトでオーディオトラックを生成しますが、「any-to-any」には、同期させるための音楽ベッド、ナレーション、環境音の録音を渡すことは含まれていません。オーディオは、供給する入力ではなく、言葉で舵を取る出力です。

したがって正確な読み方はこうです。今日のany-to-anyは、テキスト+画像+動画を入力し、動画（生成されたオーディオ付き）を出力するものです。オムニモーダルの約束のうちオーディオ入力の半分は、意図的に見送られています。これは、Googleがローンチ時に安全上の理由で控えた、動画内の音声編集とアバター機能と一貫しています。単一入力のモデルに対する本物の能力の変化ではあります。ただ、その名が示唆する完全なany-to-any-to-anyの姿には、まだ達していないというだけです。

マルチモーダル入力がブリーフの何を変えるか

散文で描写するのではなくアセットから構成するようになると、ブリーフそのものの形が変わります。3つの入力はそれぞれ異なる役割を担い、腕の見せどころは、一つひとつを最も得意とすることに割り当てることにあります。

画像リファレンスは見た目を担います。すでに気に入っている被写体、色調、フレーミングです。
動画リファレンスは動きを担います。反復させたいカメラの動きやアクションです。
テキストは意図と、アセットがまだ示していないすべてを担います。ムード、変更点、どちらのリファレンスにも入っていない要素です。

実際の効果は、絵を形容詞に翻訳しようとするのをやめられることです。「暖かく、浅い被写界深度の、ゆっくり寄っていくクローズアップ」と書く代わりに、すでにそう見えるフレームと、すでにそう動くクリップを供給し、言葉は新しい部分に費やします。特定の美的感覚をテキストで描写しようと苦労した経験のある人にとって、これはワークフローの解放です。

4つのタスクモードと、その組み合わせ方

このAPIは4つのtaskタイプを公開しており、それらは「アセットから構成する」という発想にきれいに対応します。

text_to_video — アセットなしの純粋な描写。何もないところから始めるときの手段です。
image_to_video — 静止画を動かす。最も一般的な入り口で、強い1枚が動きの最初のフレームになります。
reference_to_video — 被写体やスタイルをリファレンスから新しい生成へと引き継ぐ。
edit — 対話形式で状態を保持するモード。あなたが変えなかった部分を保ちながら、直前のクリップを修正します。

想定される流れは、これらを連鎖させます。最初の3つのいずれかでベースを生成または動かし、そのあとeditに移って対話形式で磨き上げます。これはGoogle自身のNano Banana 2 LiteとOmni Flashの組み合わせ、すなわち静止画を編集してから動かすという流れと同じ形を、複数のやり取りにわたって拡張したものです。

オーディオの機微、詳しく

オーディオを供給できないため、サウンドデザインは書く作業になります。モデルは、プロンプトが描写する内容に基づいて、セリフ、効果音、環境音を生成します。「窓に降るやさしい雨、音楽はなし」「一度の柔らかなクリック音、そのあとに部屋の空気感」といった具合です。意味のある制御は得られますが、それは描写による制御であり、計画上2つのことを意味します。

生成した動画を既存のトラック、たとえばライセンス楽曲、ブランドのサウンドロゴ、収録済みのナレーションに合わせる必要があるなら、その同期はOmni Flashの中ではなく、別のオーディオ工程で行います。
ふさわしいオリジナルの音があればよいだけなら、プロンプトでうまく描写すれば、アップロードなしでそこに到達できます。

OmniArtの現在地

アセットから構成するワークフローは、Omni Flashを待たなければ試せないものではありません。すでにOmniArtの動画ワークスペースで使えるモデルで動作し、しかもある点ではそれらのほうが一歩進んでいます。

今すぐOmniArtで使えるSeedance 2.0は、まさにこの発想を軸に作られました。最大9枚の画像、3本の動画クリップ、そして特筆すべきことに3つのオーディオファイルを1つのプロンプトで受け付け、それぞれを@image1 / @video1 / @audio1という記法で役割に紐づけます。これには、Omni Flashが見送ったオーディオリファレンス入力も含まれます。もしあなたのブリーフが、モデルに扱わせる特定の音を渡すことに依存しているなら、その道は今日すでに存在します。

そして進む方向は、この分野全体で明確です。6月に発表されたSeedance 2.5は、同じリファレンスアーキテクチャを一度に最大50のマルチモーダル入力へと押し広げます。any-to-any入力は単一モデルの物語ではありません。演出されたAI動画が向かう先そのものです。Omni Flashはその発想に名前を与えました。ワークスペースでは、すでにそれを実践できます。

OmniArtで動画ワークスペースを開き、リファレンスのセットを組み立て、アセットに見た目と動きを担わせ、あなたの言葉に意図を担わせてください。それが、今すぐ使えるany-to-anyのブリーフです。

制作を始めますか？

AIで魅力的なコンテンツを生成しましょう

無料で始める