guide教程与操作指南17 分钟阅读

Veo 3.1 空间音频：让声音真正贴合画面的最佳实践

Veo 3.1 将对白、环境音和音效与视频联合生成，具备真实的方向深度。本文介绍如何在 OmniArt 中分层撰写音频提示词，让声音真正契合每一个画面。

OmniArt 团队2026年6月12日

大多数 AI 视频的音频只是"摆"在那里，而非真正"存在"于画面中。繁忙集市的片段配上人群噪声，森林片段配上鸟鸣——这在技术上都没问题，却都不够真实，因为声音根本不知道画面中的事物在哪里。Veo 3.1 通过原生空间音频改变了这一局面：模型在生成视频的同时生成声音，能感知什么在近处、什么在远处、什么被遮蔽、什么穿透而来。主体背后的门关上，和前景中的门关上，声音是不同的。三层楼下的车流，比街道旁的车流更安静、更弥散。本文将讲解 Veo 联合音频生成的工作原理，如何分层思考三种音频类型，以及如何撰写提示词，在第一次运行时就实现空间纵深——附三个可直接参考的实景示例。

Veo 3.1 原生音频的工作原理

Veo 3.1 在单次联合推理中同时生成音频和视频。这与两步流程截然不同——后者是先导出静音视频，再由音频模型尝试匹配。Veo 在构建画面帧的同时构建声音景观，模型了解正在生成的场景的空间布局：哪些元素靠近摄像机、哪些在背景中、环境有多密集、表面会吸收还是反射声音。

这一机制带来的实际效果是方向感。近场元素（主体的脚步声、手触碰表面、呼吸声）与背景元素（街道噪声、环境低鸣、人群嘈杂声）呈现出不同的距离感。模型能以适当的相对音量叠加这些声音，因为它在构建空间场景，而非事后推断。

说明

原生音频在 OmniArt 上的全部三个 Veo 3.1 版本中均可使用：veo-3.1-standard、veo-3.1-fast 和 veo-3.1-lite。空间一致性在各版本间保持一致；版本之间的主要差异是生成速度和分辨率上限，而非音频质量。

Veo 3.1 还支持原生 4K 输出，这在音频提示方面有一个具体意义：更高的视觉保真度意味着画面中有更多环境细节，而音频模型能够响应的细节也更多。同一场景，4K 下雨后的石板街道近景，比 720p 柔和渲染能为模型提供更多参考依据。

需要分开思考的三个音频层

从 Veo 3.1 的音频生成中获得有效结果最稳定的方法，是在动笔写提示词之前，先将音频指令在脑海中划分为三个层次。每个层次有不同的特性，对应不同的提示模式。

对白

对白是最精确可控的层次。模型需要明确的信息：说了什么、谁在说、该如何演绎。与环境音不同——后者模型可以从视觉背景中推断很多——对白没有模型可以读取的视觉对应物。一个边走边说的角色，无论是在背诵购物清单还是发表独白，外观看起来都是一样的。

逐字写出台词，然后加上演绎备注。一个简洁的演绎形容词，通常比两三个更有效。可靠有效的演绎备注：warm and unhurried（温暖从容）、flat and exhausted（平静疲倦）、urgent, just above a whisper（紧迫，略高于耳语）、soft but careful（轻柔但谨慎）。容易产生平均化结果的备注：堆叠对立词汇，如 relaxed but tense 或 quiet but intense。

对白同样需要空间背景。Voice close-mic'd, room barely audible 和 voice slightly distant, reverberant room 会产生截然不同的结果。模型会将声学环境与你描述的环境空间感相匹配。

环境音与氛围

环境音是 Veo 3.1 最具特色的处理层次。由于模型了解正在生成的空间布局，你可以用层次和距离来描述环境，模型能真正响应这种描述。

一个实用的思维模型：把空间想象成三个同心圆——近景（摄像机触手可及的范围内）、中景（活跃的场景空间）、远景（从窗户或画面边缘能听到的声音）。为每个区域命名元素并标注相对音量，就能为模型提供一个空间混音目标。

区域	示例元素	提示词表达
近景	织物摩擦声、呼吸声、手触表面	"close fabric rustle"、"subject's quiet breathing"
中景	脚步声、对话声、工具声、烹饪声	"footsteps on concrete nearby"、"clink of cups on the counter"
远景	街道车流、人群低语、环境噪声	"traffic muffled behind glass"、"distant crowd, barely audible"

不必填满所有三个区域。一个极简的室内场景可能只需要一个中景元素和一丝房间底噪。对不应有声音的区域过度描述只会让混音变得杂乱。

音效（SFX）

音效是与特定视觉时刻相关联的独立音频事件：开门声、物体放下声、提示音、车辆经过声。由于 Veo 与视频联合生成音频，与画面中可见动作相对应的音效往往自然同步——模型在手触碰玻璃杯之前就已经"知道"了。

对于需要精准落点的音效，用视觉事件而非音频事件来描述。"She sets the phone face-down on the desk"（她把手机屏幕朝下放在桌上）既触发视觉动作，也带出声音；而"a clunk as the phone hits the desk"（手机碰桌的闷响）只是抽象地描述声音，更难让模型同步。

对于不依附于画面内动作的音效——画外声音、环境标点——像处理对白提示一样对待：明确命名，并赋予空间背景。"A car alarm starts briefly in the distance, off-frame right"（远处右侧画外，车辆防盗报警短暂响起）比"random street noise includes a car alarm"（随机街道噪声包含一声车辆报警）精确得多。

三个实景示例

以下示例展示了完整提示模式在三种不同音频场景中的应用，每个示例对应一个不同的主要音频挑战。

场景一：街道上的近/远空间层次

背景： 主体沿着商业街走向店铺入口。音频需要体现近场元素（主体的脚步声、环境呼吸声）与周边环境（车流声、店门声）之间的空间差异。

提示词：

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

预期效果： 脚步声应处于近场，与背景车流明显分离。门口的转换——室外到隔音室内——是提示词指向的空间事件，而 Veo 的联合生成意味着模型了解那一时刻的视觉遮挡关系。

调整方向： 若车流声相对脚步声过响，添加 traffic well back, not competing with footsteps。若门口转换过于突兀，添加 gradual acoustic shift as the door opens。

场景二：纯靠环境音承载情绪的无对白氛围镜头

背景： 傍晚的宽景室内镜头——无对白、无明显动作。音频需要完全通过环境层次承载场景的情感基调。

提示词：

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

预期效果： 一个分层的环境混音，声音之间的停顿与声音本身同样可辨。模型应将 quiet enough to hear the silence between sounds 作为混音音量指令，将所有元素保持在能感知到底噪的低位。

调整方向： quiet enough to hear the silence 可通过添加 each element appearing only briefly, not constant 来强化。加入 a phone buzzing once on a surface, off-frame 可在不破坏氛围的前提下引入一个叙事标点。

提示

无对白环境音场景是 Veo 3.1 空间音频相比平面音频模型优势最为明显的场景。若结果听起来像单一循环的背景音轨而非分层环境，提示词可能描述不足——请添加第二个或第三个有明确空间定位的具名元素。

场景三：对白的句子级语调控制

背景： 一个角色对镜头提出一个问题。演绎需要自然的句子级语调——尤其是疑问句末尾可感知的上扬——而非平板式朗读。

提示词：

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

预期效果： 演绎备注 rising slightly on 'find out' 和 genuinely confused rather than angry 应同时影响音频波形和音调轮廓。房间音调指令（no reverb）确定了声学环境，使对白不会听起来像是在另一个空间录制的。

调整方向： 若演绎过于平板，将 quiet 替换为 controlled but emotionally present。若句子语调不明显，将演绎备注与情感备注分开：先陈述情感，再陈述具体的语调指令。

重新生成前：读懂平板或机械的结果

并非每次生成都需要修改提示词。有些结果只需要更长的时长或不同的随机种子。但有些特定模式表明提示词本身存在问题：

平板结果（无空间纵深）： 所有音频元素处于相同的表观距离，没有前景/背景之分。解决方法：为至少两个元素添加明确的空间语言——一个标注为近场，一个标注为远处或隔音。模型需要一个对比才能做出响应。

机械对白： 演绎节奏均匀，没有停顿、音调变化，最后一个音节也没有语调起伏。解决方法：在提示词中写入一个具体的语调指令（疑问句末尾上扬、情感节拍放缓、陈述结尾下降）。natural 或 realistic 这类抽象演绎备注太模糊，无法改变结果。

混音过满： 太多音频元素争夺存在感，没有任何一个清晰落点。解决方法：精简到两三个最重要的元素，并明确描述相对音量。三个定位清晰的声音远胜七个互相竞争的声音。

声学环境错误： 房间混响过多或过干，与视觉不符。解决方法：直接命名声学特征——dry, close-mic'd room（干燥，近距离收音的房间）、medium reverb, concrete walls（中等混响，混凝土墙壁）、outdoor, open air, no reflections（室外，开阔空气，无反射）。

症状	可能原因	解决方法
无空间纵深	缺少近/远语言	为 2 个以上元素添加明确距离限定词
机械对白	演绎备注模糊	添加一条具体语调指令
混音杂乱	音源过多	精简到 2–3 个元素并标注相对音量
声学环境错误	未给出声学背景	明确命名房间特征

最佳实践摘要

做什么	为什么
写提示词前先在脑中分离对白、环境音和音效	每个层次响应不同的提示模式
按区域命名环境元素——近景、中景、远景	为模型提供空间混音目标，而非平面描述
逐字写出对白台词并附上演绎备注	模型需要准确的文本和音调方向
将音效描述为视觉事件，而非音频事件	与画面动作的同步比抽象时序更易建模
只要效果音就使用 `no music`	防止自动配乐添加背景音轨
保持命名元素数量少	三个定位清晰的声音胜过七个互相竞争的声音
命名声学环境	房间特征决定其他所有元素的融合方式

在 OmniArt 上开始创作

全部三个 Veo 3.1 版本——veo-3.1-standard、veo-3.1-fast 和 veo-3.1-lite——均可在 OmniArt 视频工作区使用，共用同一个积分余额和提示词界面，无需单独的 Google 账号或 API 密钥。校准音频提示词最快的方式是：先在简单场景中设置一个近/远对比，观察模型的输出，然后逐层添加元素，直到混音达到理想效果。

关于 Veo 3.1 摄影构图和提示词结构的深入介绍，请参阅 Veo 3.1 提示词与电影拍摄指南。如果你正在使用同样以单次联合推理生成音频的其他模型，Grok Imagine 原生音频指南中涵盖了 xAI 原生音频系统的类似提示逻辑。

前往 OmniArt 开始生成

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始