Gemini Omni Flashで10秒動画を作るプロンプトの書き方
Gemini Omni Flashのプロンプト設計は独特です。ネガティブ指定なし、アスペクト比は2種類、英語のみ対応、そして2つの異なるプロンプトモード。両方を的確に書く方法を解説します。

ほとんどのAI動画プロンプトガイドが教えるのは、たった一つのことです。豊富で詳細な一段落を書き、それをモデルに一度だけ渡す、というやり方です。Gemini Omni Flashはその前提を覆します。その開発者向けAPI(6月30日から公開)は、2つの異なるプロンプトの行為を軸に設計されています。最初の生成と、そのあとに続く一連の編集の対話です。編集はそれぞれ、同じクリップを作り替えていきます。片方だけを意識してもう片方を無視すれば、このモデルの持つ力の大半を引き出せないまま終わってしまいます。
Omni Flashのプロンプト設計は、何を「省いているか」という点でも独特です。ネガティブプロンプトの欄はなく、temperatureの調整もなく、システム指示もなく、アスペクト比は2種類しかありません。これらは、やみくもに回避すべき欠点ではありません。一つひとつが、プロンプトの書き方そのものを変える要素です。本ガイドでは、両方のモードと、それらを形づくる制約について解説します。
メモ
2026年7月1日時点で、Gemini Omni FlashはGoogle AI Studio、Gemini API、Geminiアプリ、Google Flowを通じて利用できますが、OmniArtのワークスペース内ではまだ使えません。以下のセクションでは、Google自身のツールを直接使ってプロンプトを書く方法を説明します。最後のセクションでは、そこで身につけた習慣のうち、今日OmniArtで使える動画モデルにそのまま応用できるものを整理します。
プロンプトのモードは1つではなく2つ
Omni Flashのすべてのセッションには2種類のプロンプトがあり、それぞれ異なる書き方を必要とします。
最初の生成プロンプトは、10秒という1つのビートを丸ごと指示する完全なブリーフです。被写体、動き、カメラ、光、音、スタイルをすべて含みます。これは優れたテキストから動画、あるいは画像から動画のプロンプトと同じように機能します。ディテールを前半に集約し、具体的に、ショット全体を一度に描写します。
対話形式の編集指示は、その正反対です。短く、変更点をちょうど1つだけ名指しし、モデルが直前のクリップをすでに文脈として保持していることを前提とします。「照明をゴールデンアワーにして」「セダンをピックアップトラックに変えて」。モデルは、あなたが触れなかった部分をすべて保ちながら、その変更を適用します。これはprevious_interaction_idによって実現され、Interactions APIを通じて最大3回までの連続した編集にわたりセッションの状態を引き継ぎます。1回の編集指示に3つの変更を詰め込むと、このモードを使う価値そのものである精度が失われます。
考え方はこうです。最初のプロンプトで構図を組み立て、そのあとのやり取りで演出を加える。 しっかりしたベースとなるクリップを得たら、撮影中の監督に指示を出すように、一度に一つずつ調整していきます。
言葉づかいを左右するAPIの制約
Omni Flashのパラメータ一覧は、意図的に短く作られています。省かれている一つひとつに、プロンプト上の意味があります。
| 制約 | プロンプトにとっての意味 |
|---|---|
| ネガティブプロンプトの欄がない | 除外したいものはプロンプトの中で表現する。別枠のネガティブリストではなく、「歩行者も車もいない、人けのない通り」のように書く |
| temperature / top_p / システム指示がない | ばらつきを調整したり、持続的なスタイルルールを設定したりはできない。トーンやスタイルは毎回プロンプトの本文に織り込む |
| アスペクト比は9:16または16:9のみ | 向きは最初に決める。正方形やシネマワイドの選択肢はないため、最初の一語から縦向きか横向きかを想定して構図を作る |
| 音は言葉で描写する。アップロードは不可 | 合わせるべきトラックを渡すことはできない。欲しい音は言葉で描写する(後述) |
| 英語は完全対応。他言語は未検証 | 予測可能な結果を得るには、プロンプトは英語で書く |
| 10秒という絶対的な上限 | 1回の生成につき明確なアクションを1つだけ。ショットリストではない |
警告
Omni Flashにはオーディオリファレンスのアップロード機能がありません。同期させるための音楽ベッドや音声サンプルを渡すことはできません。デフォルトでオーディオトラックを生成しますが、その唯一の制御手段はプロンプトの言葉だけです。したがってサウンドデザインは、添付するものではなく、書き記すものになります。
最初の生成のためのテンプレート
10秒には1つのビートしか収まらないため、最も強い最初のプロンプトは、あらゆるレイヤーを指定したうえで、途切れのない一瞬を描写します。6つの枠で、ほぼどんなショットもカバーできます。
- 被写体 — 画面に映るのは誰か・何か。具体的に描写する
- 動き — クリップ全体を通して展開する、たった1つのアクション
- カメラ — 一連の動きではなく、1つの動き(「ゆっくり寄る」「固定した引きの画」)
- 照明 — 方向、質感、時間帯
- サウンドデザイン — 生成してほしい音を、言葉で
- スタイル — 色調、時代、フィルムの参照元、質感
具体例を挙げます。
「淡いオーク材のカウンターに置かれたセラミックのハンドドリップ用ドリッパー。下のガラス製カラフェへと濃いコーヒーが注がれ、湯気が立ちのぼる。ドリップにゆっくり寄る。カメラ左手の窓から差し込む柔らかな朝の光、暖かく拡散した光。音:やさしい水のしたたる音、遠くのキッチンのざわめき、音楽はなし。抑えたエディトリアルな色調、浅い被写界深度、明るい単焦点レンズで撮影。」
除外したいものが文中に収められている点(「音楽はなし」)、カメラが1つの動きである点、音が明示されている点に注目してください。守るべき作法はそれだけです。
対話形式の編集:うまく伝わる語彙
ベースとなるクリップができたら、編集こそがOmni Flashを「生成しては捨てる」ワークフローより一歩先へ進ませる場面です。各指示は1つの意図に絞り、モデルがすっきり読み取れる一貫した動詞の語彙に頼ります。
- 照明を変える — 「ゴールデンアワーにして」「背後から冷たいリムライトを加えて」
- 入れ替える — 「コーヒードリッパーをフレンチプレスに変えて」
- スタイルを変える — 「1970年代のフィルムのような質感にして」
- 色を変える — 「マグカップをマットブラックにして」
- タイミングを変える — 「注ぐ動きをゆっくりに」「湯気をもっと長く漂わせて」
やり取りの筋を一貫させるルールは2つです。1回のやり取りにつき変更は1つ。 モデルはあなたが触れなかった部分を保つため、変更点を1つに絞った編集は、予測しやすく、再プロンプトで元に戻すのも簡単です。そして直前のやり取りの言葉を土台にする。 確立した名詞(「マグカップ」「注ぐ動き」)を使い回すことで、モデルはシーンを推測し直すのではなく、同じ要素に定位します。
ヒント
3回の編集チェーンは、目安ではなく予算です。フォローアップが最小限で済むよう、ベースとなるプロンプトを設計してください。強い最初の生成があれば、編集のやり取りを、最初のプロンプトで指定できたはずのものの修正ではなく、本当に創造的な変更のために残せます。
現時点の制限とどう付き合うか
いくつかの制限はプロンプトでは解決できません。それらと戦うのではなく、それらを念頭に置いてプロンプトを書く価値があります。
- 10秒の上限。 APIにはシーン拡張がないため、より長い展開を示唆するプロンプトは書かないでください。単体で成立する1つのビートを設計します。
- シーンが切り替わる際のキャラクターの一貫性は、認識されている弱点です。似姿が重要なら、キャラクターを新しい設定へ移動させるようモデルに求めるのではなく、編集を同じシーン内にとどめてください。
- 3秒を超える動画リファレンスは完全には処理されません。 リファレンス用のクリップは短く、要点を押さえたものにしてください。
- 複数動画のリファレンス指定と音声編集には対応していません。 どちらも非対応なので、これらの工程はプロンプトではなく別のツールで計画に組み込んでください。
これらのどれも、高速で短尺の反復ツールとして失格になる要素ではありません。ただ、Omni Flashが得意とすること、すなわち引き締まった1つのビートを対話形式で磨き上げることに、プロンプトの範囲を絞れば報われる、というだけのことです。
今日OmniArtに応用できること
Omni FlashはまだOmniArtのワークスペースにありませんが、上で挙げた習慣のほぼすべては、今日使える動画モデルにそのまま応用できます。というのも、その根底にある作法(明確な1つのビート、キーワードの羅列より具体性、音をプロンプトに書き込むこと)はモデルに依存しないからです。
- リファレンス駆動の生成は、OmniArtで使えるSeedance 2.0にそのまま対応します。Seedance 2.0は最大9枚の画像、3本の動画、3つのオーディオファイルを受け付け、
@image1/@video1という記法で役割に紐づけます。まさに「アセットから構成する」という発想で、しかもOmni Flashより多くの入力に対応します。 - シネマティックなカメラ言語は、Veo 3.1に対応します。Veo 3.1は「ドリフト」「グライド」「ドリーイン」といった動きの動詞を、抑制を効かせて解釈します。
- 6つの枠のテンプレート(被写体、動き、カメラ、光、音、スタイル)は、ワークスペース内のあらゆる動画モデルで整った結果を生む、同じ骨格です。
OmniArtで動画ワークスペースを開き、ショットに合うモデルを選んで、最初のプロンプトを完全な1つのビートとして書いてください。Omni Flashが登場したときに新たに加えるのは、上で説明した2モードのワークフローです。プロンプトを作る技術は、すでに同じなのですから。
制作を始めますか?
AIで魅力的なコンテンツを生成しましょう