guideチュートリアルと使い方ガイド15分で読めます

Veo 3.1 プロンプト完全ガイド:映画品質の映像を生成する技術

放送品質の映像を引き出すVeo 3.1プロンプト作成術:ネイティブ4K・空間オーディオ・高精度な開始フレーム遵守の仕組みを解説。再利用可能な5要素の公式と改善前後の比較例をOmniArtで体験しよう。

OmniArt チーム
Veo 3.1 プロンプト完全ガイド:映画品質の映像を生成する技術

Veo 3.1はOmniArtの放送品質対応動画モデルです。大画面での視聴に耐えうる出力が必要なとき、最初に選ぶべきモデルになります。ネイティブ4K出力、映像フレームと同時生成される空間オーディオ、そして参照画像を指定したときの異例なほど高い開始フレーム遵守精度を備えています。ただし、プロンプトが曖昧であれば、これらの長所は活かせません。本ガイドでは、Veo 3.1が望む形で指示を出すための再利用可能な5要素の公式を提供し、改善前後の比較例、映画用語チートシート、そして標準・高速・ライトの各ティアをいつ使い分けるかの判断基準も解説します。

Veo 3.1のための5要素プロンプト公式

Veo 3.1は5つの問いに順番に答える構造化されたプロンプトによく反応します。一つ省略すると、モデルがその空白を埋めますが、たいていは最も凡庸な方法で処理されます。

  1. 被写体と動作 — 何が、何をして、どこで。「暗い編集室でひとり映像を確認する映像作家。」
  2. カメラ(動き・レンズ・フレーミング) — ショットサイズ、焦点距離、カメラの動きとその速度。「ゆっくりとしたプッシュイン、50mm、ミディアムクロースアップ、固定後に前方へゆっくり流れるカメラ。」
  3. 照明と雰囲気 — 光源、方向、質感、色調。「モニターの光のみをキーライトとして、深い影、クールなブルー、ハイコントラスト。」
  4. オーディオと環境音 — 空間の音、特定の音、音楽の方向性または no music「静かな電気のハム音、時折のキーボードの音、no music。」
  5. 技術仕様 — 解像度(4Kか否か)、尺の意図、スタイル参照。「4K、8秒、フォトリアリスティック。」

完全な記述例

プロンプト:

「暗い編集室でひとり映像を確認する映像作家。ゆっくりとしたプッシュイン、50mm、ミディアムクロースアップ、固定後に前方へゆっくり流れるカメラ。モニターの光のみをキーライトとして、深い影、クールなブルー、ハイコントラスト。静かな電気のハム音、時折のキーボードの音、no music。4K、8秒、フォトリアリスティック。」

このプロンプトは30秒以内で書けます。撮影監督が照明担当者にショットを説明するような書き方をすることで、Veo 3.1が誤推測する余地をほぼなくせます。

ヒント

音が重要なシーンだけでなく、すべてのプロンプトにオーディオの方向性を記述してください。Veo 3.1は映像フレームと同時に空間オーディオを生成します。オーディオを指定しないことは無音を意味しません。モデルに制御権が渡るだけです。後から音楽を重ねるためにクリーンな環境音が必要なら、no music と明記してください。

映画用語チートシート

以下の用語はVeo 3.1の生成に直接反映されます。必要なフレーズをコピーしてプロンプトに貼り付けてください。

カメラの動き

動きプロンプトフレーズ
ゆっくり近づく"slow dolly-in"、"gentle push-in"
後退する"slow pull-back"、"dolly-out to reveal"
横に追いかける"smooth tracking shot from the left"、"lateral dolly"
上昇して全景を見せる"slow crane up to reveal the skyline"
手持ちの緊張感"subtle handheld shake, reactive framing"
固定・安定"tripod-locked"、"static wide"
被写体の周囲を弧を描くように移動"slow arc around the subject"

ショットサイズとアングル

意図プロンプトフレーズ
規模と環境"wide 18mm, deep focus, full environment"
空間の中の被写体"medium shot, eye level"
親密さ"medium close-up, 50mm"
強烈な印象"tight close-up, 85mm, shallow focus"
力と威圧感"low angle looking up"
脆弱さ"high angle looking down"

照明

見た目プロンプトフレーズ
自然な温かみ"golden-hour side light, warm highlights, cool shadows"
重厚なコントラスト"chiaroscuro, single hard source from camera right"
都市的な雰囲気"neon spill, magenta and cyan, reflections in wet pavement"
クリーンなインタビュー照明"soft diffused key, slightly warm, low contrast"
夜の存在感"practical light only — a single lamp, deep background falloff"

改善前後の比較例

A:カメラの方向指示 — 最も効果的な単一調整要素

Veo 3.1のプロンプトに加えられる最も大きなインパクトの変化は、カメラの動きと焦点距離を追加することです。比較してみましょう。

追加前: "A street musician playing violin in the rain."

追加後: "Medium close-up of a street musician playing violin in the rain. Slow dolly-in, 85mm, shallow depth of field — background traffic dissolving into blur. Practical street-lamp from above, rim-lighting the bow. Light rain sound, distant traffic, no music."

2番目のバージョンは「cinematic」という言葉を一切使っていません。代わりに、ショットを映画的にする具体的な要素を指定することで、モデルは10通りの一般的な解釈から選ぶのではなく、その意図をそのまま描画します。

B:画像から動画への変換における開始フレーム遵守

参照画像を開始フレームとして提供したとき、Veo 3.1の画像遵守能力は特に際立ちます。モデルは最初のフレームから構図、カラーグレード、主要なキャラクター詳細を引き継ぎ、生成全体にわたる制約として活用します。

実際の使い方:商業撮影のスチル、製品レンダリング、またはキャラクターコンセプト画像を用意し、OmniArtの画像から動画への変換ワークフローで開始フレームとして設定してから、その起点からの動きを説明するプロンプトを書きます。

製品撮影の開始フレームを提供した後のプロンプト:

「香水瓶が白い大理石の台の上に置かれています。左から右へゆっくりと弧を描くように移動し、瓶は中央を保ちます。高い窓からの午後の光がガラスを横切り、ファセットに輝きをもたらします。4K、6秒、no music。」

モデルは参照画像の正確な照明、製品の位置、表面の質感を引き継ぎ、指定された動きをそれに適用します。シーンを最初から再生成するのではありません。

メモ

開始フレーム画像のアスペクト比と解像度が生成目標に近いほど、画像遵守効果が最大化されます。16:9の生成に正方形画像を提供すると、クロップまたはレターボックス処理が行われ、モデルが引き継ぐ構図が変わる可能性があります。

C:1行のプロンプトで生成する空間オーディオ

Veo 3.1の空間オーディオは別途の処理を必要としません。プロンプトに説明的なオーディオの1行を加えるだけで、レイヤーが豊富で方向性のあるサウンドスケープを生成できます。

プロンプトの一部:

「...オーディオ:頭上の波形鉄板屋根に近接収音した雨音、遠くの市場の人混みの音、時折右から左へ通り過ぎるバイクの音、no music。」

モデルが生成するもの:雨音は方向性を持ち、シーンの上方から空間的に聞こえます。市場の人混みの音は中距離に位置します。バイクは説明通りにステレオフィールドを横切っていきます。この方向性は後処理ではなく、Veo 3.1のネイティブオーディオアーキテクチャから生まれます。各レイヤーとその空間的関係(closedistantpassing left to right)を指定することで、モデルは位置情報を持つレンダリングに必要な情報を得られます。

標準・高速・ライトの使い分け

Veo 3.1はOmniArtで3つのティアで提供されています。適切な選択は、習慣的なデフォルト設定ではなく、作業内容によって決まります。

ティア使用場面クレジット消費
veo-3.1-standard最終出力、放送納品、クライアントレビュー、あらゆる4Kユースケース1秒あたり最高
veo-3.1-fast適切な品質での反復作業とプロンプト改善中程度
veo-3.1-lite素早いコンセプト確認、サムネイルチェック、絵コンテのモーション確認1秒あたり最低

4Kが追加クレジットに値する場合: 大画面納品物、製品ヒーローショット、フル解像度でエクスポートするすべての作業、または背景や質感の詳細なレンダリングが制作上重要な場合。4Kは veo-3.1-standard でのみ利用できます。

4Kが無駄になる場合: 1080p以下のSNS向けクロップ、どうせ再生成するモーションの下書き、納品ではなく探索段階のすべての作業。そのような作業には veo-3.1-lite を使用しましょう。低コストで反復し、最終バージョンが確定したら標準ティアに切り替えてください。

警告

何度も再生成する予定の探索的なプロンプトで4Kを使うと、クレジット消費が急速に膨らみます。まず高速またはライトでプロンプトを確定させてから、最終バージョンを4Kの標準ティアで出力してください。

よくあるプロンプトのミス

被写体の説明を詰め込みすぎる。 「アムステルダムの運河のそばに立ってチューリップの花束を持ち、物悲しそうな表情をした、縮れた赤い髪のヴィンテージコートを着た中年女性」というような記述は、被写体の行に多くの詳細を詰め込みすぎて、モデルがどれを実際に描画するか選ばざるを得なくなります。このショットに本当に必要な特徴だけを残し、残りは手放しましょう。

相反するカメラ指示。 "Slow push-in with a wide pull-back" は物理的に不可能です。モデルはどちらかを選んで残りを無視します。プロンプトごとに1つの明確なカメラの動きを書いてください。広角からクローズアップへと変わるショットが必要なら、それはプッシュインです。それだけです。

オーディオを完全に忘れる。 Veo 3.1は指定があってもなくてもオーディオを生成します。指示されていないオーディオ生成は無音ではありません。モデルの最善の推測であり、意図とは異なる場合があります。プロンプトは常にオーディオの1行で締めてください。no music, ambient room tone only だけでも十分です。

「cinematic」をスタイル指定として使う。 「cinematic」と書くことは、あなたがすべき決断をモデルに委ねることです。本当に望む具体的な視覚的特性に置き換えてください:レンズ、照明、動き、色調。

OmniArtで始めよう

Veo 3.1(標準・高速・ライト)は、OmniArt動画ワークスペースでライブラリの他のすべてのモデルとともに利用できます。習熟するための最速の方法は、既存のアイデアを1つ取り上げ、上記の5要素の公式で書き、まず veo-3.1-fast で生成してプロンプトを磨いてから標準ティアで最終出力することです。

映画的な語彙の全体像と、同じプロンプトパターンがOmniArtの動画モデルラインアップ全体にどう適用されるかは、映画的AIビデオプロンプトガイドをご覧ください。Veo 3.1のオーディオ生成機能をさらに深く掘り下げる準備ができたら、Veo 3.1空間オーディオのベストプラクティスガイドで、レイヤードサウンドスケープ、位置オーディオの手がかり、音楽の方向指示について詳しく学べます。Veo 3.1と他の最上位モデルの比較は、Veo 3.1 vs Sora 2をご参照ください。

制作を始めますか?

AIで魅力的なコンテンツを生成しましょう

無料で始める