guide教程与操作指南17 分钟阅读

Veo 3.1 空间音频:让声音真正贴合画面的最佳实践

Veo 3.1 将对白、环境音和音效与视频联合生成,具备真实的方向深度。本文介绍如何在 OmniArt 中分层撰写音频提示词,让声音真正契合每一个画面。

OmniArt 团队
Veo 3.1 空间音频:让声音真正贴合画面的最佳实践

大多数 AI 视频的音频只是"摆"在那里,而非真正"存在"于画面中。繁忙集市的片段配上人群噪声,森林片段配上鸟鸣——这在技术上都没问题,却都不够真实,因为声音根本不知道画面中的事物在哪里。Veo 3.1 通过原生空间音频改变了这一局面:模型在生成视频的同时生成声音,能感知什么在近处、什么在远处、什么被遮蔽、什么穿透而来。主体背后的门关上,和前景中的门关上,声音是不同的。三层楼下的车流,比街道旁的车流更安静、更弥散。本文将讲解 Veo 联合音频生成的工作原理,如何分层思考三种音频类型,以及如何撰写提示词,在第一次运行时就实现空间纵深——附三个可直接参考的实景示例。

Veo 3.1 原生音频的工作原理

Veo 3.1 在单次联合推理中同时生成音频和视频。这与两步流程截然不同——后者是先导出静音视频,再由音频模型尝试匹配。Veo 在构建画面帧的同时构建声音景观,模型了解正在生成的场景的空间布局:哪些元素靠近摄像机、哪些在背景中、环境有多密集、表面会吸收还是反射声音。

这一机制带来的实际效果是方向感。近场元素(主体的脚步声、手触碰表面、呼吸声)与背景元素(街道噪声、环境低鸣、人群嘈杂声)呈现出不同的距离感。模型能以适当的相对音量叠加这些声音,因为它在构建空间场景,而非事后推断。

说明

原生音频在 OmniArt 上的全部三个 Veo 3.1 版本中均可使用:veo-3.1-standard、veo-3.1-fast 和 veo-3.1-lite。空间一致性在各版本间保持一致;版本之间的主要差异是生成速度和分辨率上限,而非音频质量。

Veo 3.1 还支持原生 4K 输出,这在音频提示方面有一个具体意义:更高的视觉保真度意味着画面中有更多环境细节,而音频模型能够响应的细节也更多。同一场景,4K 下雨后的石板街道近景,比 720p 柔和渲染能为模型提供更多参考依据。

需要分开思考的三个音频层

从 Veo 3.1 的音频生成中获得有效结果最稳定的方法,是在动笔写提示词之前,先将音频指令在脑海中划分为三个层次。每个层次有不同的特性,对应不同的提示模式。

对白

对白是最精确可控的层次。模型需要明确的信息:说了什么、谁在说、该如何演绎。与环境音不同——后者模型可以从视觉背景中推断很多——对白没有模型可以读取的视觉对应物。一个边走边说的角色,无论是在背诵购物清单还是发表独白,外观看起来都是一样的。

逐字写出台词,然后加上演绎备注。一个简洁的演绎形容词,通常比两三个更有效。可靠有效的演绎备注:warm and unhurried(温暖从容)、flat and exhausted(平静疲倦)、urgent, just above a whisper(紧迫,略高于耳语)、soft but careful(轻柔但谨慎)。容易产生平均化结果的备注:堆叠对立词汇,如 relaxed but tensequiet but intense

对白同样需要空间背景。Voice close-mic'd, room barely audiblevoice slightly distant, reverberant room 会产生截然不同的结果。模型会将声学环境与你描述的环境空间感相匹配。

环境音与氛围

环境音是 Veo 3.1 最具特色的处理层次。由于模型了解正在生成的空间布局,你可以用层次和距离来描述环境,模型能真正响应这种描述。

一个实用的思维模型:把空间想象成三个同心圆——近景(摄像机触手可及的范围内)、中景(活跃的场景空间)、远景(从窗户或画面边缘能听到的声音)。为每个区域命名元素并标注相对音量,就能为模型提供一个空间混音目标。

区域示例元素提示词表达
近景织物摩擦声、呼吸声、手触表面"close fabric rustle"、"subject's quiet breathing"
中景脚步声、对话声、工具声、烹饪声"footsteps on concrete nearby"、"clink of cups on the counter"
远景街道车流、人群低语、环境噪声"traffic muffled behind glass"、"distant crowd, barely audible"

不必填满所有三个区域。一个极简的室内场景可能只需要一个中景元素和一丝房间底噪。对不应有声音的区域过度描述只会让混音变得杂乱。

音效(SFX)

音效是与特定视觉时刻相关联的独立音频事件:开门声、物体放下声、提示音、车辆经过声。由于 Veo 与视频联合生成音频,与画面中可见动作相对应的音效往往自然同步——模型在手触碰玻璃杯之前就已经"知道"了。

对于需要精准落点的音效,用视觉事件而非音频事件来描述。"She sets the phone face-down on the desk"(她把手机屏幕朝下放在桌上)既触发视觉动作,也带出声音;而"a clunk as the phone hits the desk"(手机碰桌的闷响)只是抽象地描述声音,更难让模型同步。

对于不依附于画面内动作的音效——画外声音、环境标点——像处理对白提示一样对待:明确命名,并赋予空间背景。"A car alarm starts briefly in the distance, off-frame right"(远处右侧画外,车辆防盗报警短暂响起)比"random street noise includes a car alarm"(随机街道噪声包含一声车辆报警)精确得多。

三个实景示例

以下示例展示了完整提示模式在三种不同音频场景中的应用,每个示例对应一个不同的主要音频挑战。

场景一:街道上的近/远空间层次

背景: 主体沿着商业街走向店铺入口。音频需要体现近场元素(主体的脚步声、环境呼吸声)与周边环境(车流声、店门声)之间的空间差异。

提示词:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

预期效果: 脚步声应处于近场,与背景车流明显分离。门口的转换——室外到隔音室内——是提示词指向的空间事件,而 Veo 的联合生成意味着模型了解那一时刻的视觉遮挡关系。

调整方向: 若车流声相对脚步声过响,添加 traffic well back, not competing with footsteps。若门口转换过于突兀,添加 gradual acoustic shift as the door opens


场景二:纯靠环境音承载情绪的无对白氛围镜头

背景: 傍晚的宽景室内镜头——无对白、无明显动作。音频需要完全通过环境层次承载场景的情感基调。

提示词:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

预期效果: 一个分层的环境混音,声音之间的停顿与声音本身同样可辨。模型应将 quiet enough to hear the silence between sounds 作为混音音量指令,将所有元素保持在能感知到底噪的低位。

调整方向: quiet enough to hear the silence 可通过添加 each element appearing only briefly, not constant 来强化。加入 a phone buzzing once on a surface, off-frame 可在不破坏氛围的前提下引入一个叙事标点。

提示

无对白环境音场景是 Veo 3.1 空间音频相比平面音频模型优势最为明显的场景。若结果听起来像单一循环的背景音轨而非分层环境,提示词可能描述不足——请添加第二个或第三个有明确空间定位的具名元素。

场景三:对白的句子级语调控制

背景: 一个角色对镜头提出一个问题。演绎需要自然的句子级语调——尤其是疑问句末尾可感知的上扬——而非平板式朗读。

提示词:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

预期效果: 演绎备注 rising slightly on 'find out'genuinely confused rather than angry 应同时影响音频波形和音调轮廓。房间音调指令(no reverb)确定了声学环境,使对白不会听起来像是在另一个空间录制的。

调整方向: 若演绎过于平板,将 quiet 替换为 controlled but emotionally present。若句子语调不明显,将演绎备注与情感备注分开:先陈述情感,再陈述具体的语调指令。


重新生成前:读懂平板或机械的结果

并非每次生成都需要修改提示词。有些结果只需要更长的时长或不同的随机种子。但有些特定模式表明提示词本身存在问题:

平板结果(无空间纵深): 所有音频元素处于相同的表观距离,没有前景/背景之分。解决方法:为至少两个元素添加明确的空间语言——一个标注为近场,一个标注为远处或隔音。模型需要一个对比才能做出响应。

机械对白: 演绎节奏均匀,没有停顿、音调变化,最后一个音节也没有语调起伏。解决方法:在提示词中写入一个具体的语调指令(疑问句末尾上扬、情感节拍放缓、陈述结尾下降)。naturalrealistic 这类抽象演绎备注太模糊,无法改变结果。

混音过满: 太多音频元素争夺存在感,没有任何一个清晰落点。解决方法:精简到两三个最重要的元素,并明确描述相对音量。三个定位清晰的声音远胜七个互相竞争的声音。

声学环境错误: 房间混响过多或过干,与视觉不符。解决方法:直接命名声学特征——dry, close-mic'd room(干燥,近距离收音的房间)、medium reverb, concrete walls(中等混响,混凝土墙壁)、outdoor, open air, no reflections(室外,开阔空气,无反射)。

症状可能原因解决方法
无空间纵深缺少近/远语言为 2 个以上元素添加明确距离限定词
机械对白演绎备注模糊添加一条具体语调指令
混音杂乱音源过多精简到 2–3 个元素并标注相对音量
声学环境错误未给出声学背景明确命名房间特征

最佳实践摘要

做什么为什么
写提示词前先在脑中分离对白、环境音和音效每个层次响应不同的提示模式
按区域命名环境元素——近景、中景、远景为模型提供空间混音目标,而非平面描述
逐字写出对白台词并附上演绎备注模型需要准确的文本和音调方向
将音效描述为视觉事件,而非音频事件与画面动作的同步比抽象时序更易建模
只要效果音就使用 no music防止自动配乐添加背景音轨
保持命名元素数量少三个定位清晰的声音胜过七个互相竞争的声音
命名声学环境房间特征决定其他所有元素的融合方式

在 OmniArt 上开始创作

全部三个 Veo 3.1 版本——veo-3.1-standard、veo-3.1-fast 和 veo-3.1-lite——均可在 OmniArt 视频工作区使用,共用同一个积分余额和提示词界面,无需单独的 Google 账号或 API 密钥。校准音频提示词最快的方式是:先在简单场景中设置一个近/远对比,观察模型的输出,然后逐层添加元素,直到混音达到理想效果。

关于 Veo 3.1 摄影构图和提示词结构的深入介绍,请参阅 Veo 3.1 提示词与电影拍摄指南。如果你正在使用同样以单次联合推理生成音频的其他模型,Grok Imagine 原生音频指南 中涵盖了 xAI 原生音频系统的类似提示逻辑。

前往 OmniArt 开始生成

准备好创作了吗?

开始用 AI 生成精彩内容

免费开始