Veo 3.1 空間オーディオ:映像にぴったり合うサウンドのためのベストプラクティス
Veo 3.1はセリフ、環境音、SFXを映像と同時生成し、真の方向的奥行きを実現します。OmniArtで各オーディオレイヤーを意図的にプロンプト指示して、映像にフィットしたサウンドを作る方法を解説します。

多くの AI 動画のオーディオは、画面に「配置」されているだけで、本当の意味で「存在」していません。にぎやかな市場のクリップには群衆の騒音が、森のクリップには鳥の声が添えられます。技術的には正しくても、どちらも説得力がありません。サウンドがフレーム内の何がどこにあるかを知らないからです。Veo 3.1はネイティブ空間オーディオによってこれを変えます。モデルは映像と同時にサウンドを生成しながら、何が近くにあり、何が遠くにあり、何がこもっていて、何が抜け出てくるかを認識します。被写体の背後で閉まるドアは、前景で閉まるドアとは違う音がします。3フロア下の交通騒音は、道路沿いの交通騒音より静かで広がりがあります。このガイドでは、Veoの統合オーディオ生成の仕組み、3つのオーディオレイヤーをどう考えるか、そして初回の実行で空間的な奥行きを実現するプロンプトの書き方を解説します。すぐに応用できる3つの実例もご紹介します。
Veo 3.1 ネイティブオーディオの仕組み
Veo 3.1はオーディオと映像を単一の統合パスで生成します。無音の映像をまず書き出し、オーディオモデルが後からそれに合わせようとする2ステップのパイプラインとはまったく異なります。Veoはフレームを構築しながら同時にサウンドスケープを構築します。モデルは自分が生成している場面の空間配置を把握しています。どの要素がカメラに近く、どれが背景にあり、環境がどれほど密集しているか、表面が音を吸収するか反射するかを理解しています。
実用上の効果は方向性です。近接要素(被写体の足音、手が表面に触れる音、呼吸)は、背景要素(街の騒音、環境的なうなり、群衆のざわめき)とは異なる見かけ上の距離を持ちます。モデルは空間的な場面を構築しているため、後から推測するのではなく、適切な相対レベルでこれらを重ねることができます。
メモ
Veo 3.1はネイティブ4K出力にも対応しており、オーディオプロンプトに一つ具体的な意味を持ちます。視覚的な忠実度が高いほどフレーム内の環境の細部が増え、オーディオモデルが反応できるディテールも増えます。雨に濡れた石畳の街路の4Kクローズアップは、同じ場面の720pのレンダリングよりもモデルに多くの情報を与えます。
個別に考えるべき3つのオーディオレイヤー
Veo 3.1のオーディオ生成から有用な結果を得る最も確実な方法は、プロンプトの一語も書く前に、オーディオの指示を3つのレイヤーに頭の中で分けることです。各レイヤーは異なる特性を持ち、異なるプロンプトパターンに反応します。
セリフ
セリフは最も精密に制御できるレイヤーです。モデルには明確な情報が必要です。何が語られているか、誰が語っているか、どのように届けるべきか。環境音とは異なり、セリフにはモデルが読み取れる視覚的な対応物がありません。歩きながら話すキャラクターは、買い物リストを読み上げていても独白を述べていても、見た目は同じです。
台詞を逐語的に書き、その後に演技の指示を付けてください。簡潔な演技の形容詞一つは、二つや三つよりもたいてい効果的です。安定して機能する演技メモ:warm and unhurried(温かみがあり落ち着いている)、flat and exhausted(無表情で疲れ果てている)、urgent, just above a whisper(切迫感があり、ほぼ囁き声)、soft but careful(柔らかいが注意深い)。平均的な結果を生みやすいメモ:relaxed but tense や quiet but intense のような矛盾する表現の組み合わせ。
セリフにも空間的な文脈が重要です。Voice close-mic'd, room barely audible と voice slightly distant, reverberant room では異なる結果になります。モデルは描写された空間の広がりのレベルに合わせて音響環境を調整します。
環境音とアンビエンス
環境音は Veo 3.1 が最もユニークに処理するレイヤーです。モデルが生成している空間配置を把握しているため、レイヤーと距離で環境を描写すると、モデルが実際にその描写に応じることができます。
有用な思考モデル:3つの同心円状のゾーンを想像してください。前景(カメラの手の届く範囲)、中景(活発な場面の空間)、後景(窓越しやフレームの端で聞こえるもの)。各ゾーンの要素を名前で指定し、相対的なレベルを示すことで、モデルに空間的なミックスの目標を与えられます。
| ゾーン | 例となる要素 | プロンプトの表現 |
|---|---|---|
| 前景 | 布の擦れ音、呼吸音、手が表面に触れる音 | "close fabric rustle"、"subject's quiet breathing" |
| 中景 | 足音、会話音、道具の音、料理の音 | "footsteps on concrete nearby"、"clink of cups on the counter" |
| 後景 | 道路の交通音、群衆のざわめき、環境的な音 | "traffic muffled behind glass"、"distant crowd, barely audible" |
3つのゾーンすべてを埋める必要はありません。ミニマリストの室内場面なら、中景の要素1つと控えめなルームトーンだけで十分かもしれません。音がすべきでないゾーンを過度に指定するとミックスが雑になります。
効果音(SFX)
SFXは特定の視覚的な瞬間に結びついた独立したオーディオイベントです。ドアが開く音、物を置く音、通知音、車が通り過ぎる音など。Veoは映像と合わせてオーディオを生成するため、画面上の可視アクションに対応するSFXは自然に同期する傾向があります。モデルは手がグラスに触れる前からその動きを把握しています。
正確なタイミングで鳴らしたいSFXは、オーディオイベントとしてではなく視覚的なイベントとして描写してください。"She sets the phone face-down on the desk" は視覚的アクションとその音を同時に促します。"a clunk as the phone hits the desk" は音を抽象的に描写しているだけで、モデルが同期するのがより難しくなります。
画面内のアクションに結びつかないSFX、つまりフレーム外からの音や環境的な区切りが必要な場合は、セリフの指示のように扱ってください。明示的に名前を付け、空間的な文脈を与えてください。"A car alarm starts briefly in the distance, off-frame right" は "random street noise includes a car alarm" よりはるかに正確です。
3つの実例
これらの例は、3つの異なるオーディオシナリオに完全なプロンプトパターンを適用する方法を示します。それぞれ異なる主要なオーディオ課題を扱っています。
場面1:街路での近距離/遠距離の空間レイヤリング
概要: 被写体が商業街路を歩いて店の入口に向かいます。オーディオは近接要素(被写体の足音、周囲の呼吸音)と周辺環境(交通音、店のドア)の空間的な違いを示す必要があります。
プロンプト:
"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."
期待される結果: 足音は近距離に位置し、背景の交通音と明確に分離されているはずです。ドアでの移行、つまり外部から遮音された内部への変化が、プロンプトが目指す空間的イベントです。Veoの統合生成により、モデルはその瞬間の視覚的な遮蔽状況を把握しています。
調整のポイント: 交通音が足音に対して大きすぎる場合は traffic well back, not competing with footsteps を追加してください。ドアの移行が急すぎる場合は gradual acoustic shift as the door opens を追加してください。
場面2:環境音だけで情感を伝える、セリフなしのムードショット
概要: 夕暮れ時の広い室内ショット、セリフも明確なアクションもありません。オーディオは環境レイヤーだけで場面の情感を完全に伝える必要があります。
プロンプト:
"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."
期待される結果: イベント間の間が音そのものと同様に聴こえるレイヤードな環境ミックス。モデルは quiet enough to hear the silence between sounds をミックスレベルの指示として扱い、ルームトーンが知覚できる程度にすべての要素を低く保つべきです。
調整のポイント: quiet enough to hear the silence は each element appearing only briefly, not constant を追加することで強化できます。雰囲気を壊さずに物語的な区切りを加えるには a phone buzzing once on a surface, off-frame を追加してください。
ヒント
場面3:セリフの文章レベルのイントネーション制御
概要: キャラクターがカメラに向けて一つの質問を発します。自然な文章レベルのイントネーション、特に疑問文末尾の聴き取れる上昇調が必要で、機械的な平読みは避けなければなりません。
プロンプト:
"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."
期待される結果: rising slightly on 'find out' と genuinely confused rather than angry という演技指示が、オーディオ波形とピッチの輪郭の両方を形成するはずです。ルームトーンの指示(no reverb)は音響環境を確立し、セリフが別の空間で録音されたように聞こえないようにします。
調整のポイント: 演技が平板すぎる場合は quiet を controlled but emotionally present に置き換えてください。文章のイントネーションが出ない場合は、演技メモと感情メモを分けてください。まず感情を述べ、次に具体的なイントネーションの指示を書いてください。
再生成前に:平板または機械的な結果を読み解く
すべての生成でプロンプトの修正が必要なわけではありません。一部の結果は、より長い尺や別のシードで改善されます。しかし、プロンプト自体が問題であることを示す特定のパターンがあります。
平板な結果(空間的な奥行きなし): すべてのオーディオ要素が前景/背景の区別なく同じ見かけ上の距離にあります。対処法:少なくとも2つの要素に明示的な空間的な言葉を追加してください。1つは近くに、1つは遠くまたはこもった音として。モデルが反応するには対比が必要です。
機械的なセリフ: 一定のペースで話し、休止、音調の変化、最後の音節のイントネーションがありません。対処法:プロンプトに一つの具体的なイントネーション指示を書いてください(疑問文の末尾で上昇、感情的な瞬間でゆっくりに、文末で下降)。natural や realistic のような抽象的な演技メモは漠然としすぎて結果を変えられません。
詰め込みすぎのミックス: 多くのオーディオ要素が存在感を競い合い、何もはっきり位置づけられません。対処法:最も重要な2〜3要素に絞り、相対的なレベルを明示的に描写してください。適切に配置された3つのサウンドは、競い合う7つよりも優れています。
誤った音響環境: 映像に対してルームが残響が多すぎたり乾いていたりします。対処法:音響的な特性を直接名前で述べてください。dry, close-mic'd room(乾いた、近接マイクのルーム)、medium reverb, concrete walls(中程度の残響、コンクリートの壁)、outdoor, open air, no reflections(屋外、開放空間、反射なし)。
| 症状 | 原因 | 対処法 |
|---|---|---|
| 空間的な奥行きなし | 近/遠の表現が欠けている | 2つ以上の要素に明示的な距離の修飾語を追加 |
| 機械的なセリフ | 演技メモが曖昧 | 具体的なイントネーション指示を1つ追加 |
| 詰め込まれたミックス | 音源が多すぎる | 相対的なレベルを含む2〜3要素に削減 |
| 誤った音響環境 | 音響的な文脈が未提供 | ルームの特性を明示的に命名 |
ベストプラクティスのまとめ
| すること | 理由 |
|---|---|
| 書く前にセリフ、環境音、SFXを頭の中で分ける | 各レイヤーは異なるプロンプトパターンに反応する |
| 環境音の要素をゾーン別に名前で指定 — 前景、中景、後景 | 平面的な描写ではなく空間的なミックス目標をモデルに与える |
| セリフは台詞そのままに演技メモを付けて書く | モデルには正確なテキストと音調の方向が必要 |
| SFXをオーディオイベントではなく視覚的なイベントとして描写 | 画面のアクションとの同期は抽象的なタイミングよりモデリングしやすい |
効果音だけを望む場合は no music を使う | 自動スコアリングによる背景トラックの追加を防ぐ |
| 指定する要素の数を少なく保つ | 適切に配置された3つのサウンドは競い合う7つに勝る |
| 音響環境を指定する | ルームの特性が他のすべての要素の位置を決める |
OmniArt で始める
3つの Veo 3.1 バリアント — veo-3.1-standard、veo-3.1-fast、veo-3.1-lite — はすべて、OmniArt の動画ワークスペースで同じクレジット残高とプロンプトインターフェイスから利用できます。別途 Google アカウントや API キーは不要です。オーディオプロンプトを調整する最も速い方法は、シンプルな場面での単一の近/遠対比から始め、モデルが何を生成するか確認し、ミックスが目標どおりになるまで一度に1つずつレイヤーを追加していくことです。
Veo 3.1の撮影技法とプロンプト構造についての詳しい解説は、Veo 3.1 プロンプト&シネマティックガイドをご覧ください。単一の統合パスでオーディオを生成する別のパイプラインを使用している場合、Grok Imagine ネイティブオーディオガイドでは xAI のネイティブオーディオシステムに対する類似のプロンプトロジックを扱っています。
制作を始めますか?
AIで魅力的なコンテンツを生成しましょう