guide教程与操作指南13 分钟阅读

Veo 3.1 提示词与电影级画面完全指南

如何通过结构化提示词让 Veo 3.1 生成广播级画质视频：原生 4K、空间音频与高度的首帧参考遵循——包含可复用的五段式公式与前后对比示例，在 OmniArt 内直接上手。

OmniArt 团队2026年6月12日

Veo 3.1 是 OmniArt 的广播级视频模型——当你需要输出画面能在大屏幕上经受考验时，第一个会想到它。它原生支持 4K 输出，空间音频与视频帧同步生成，并在你提供参考图片时对首帧有异常强的遵循能力。但如果提示词含糊不清，这些优势都无从发挥。本指南提供一个可复用的五段式公式，帮你像导演一样指导 Veo 3.1，同时附有前后对比示例、电影词汇速查表，以及如何在标准、快速和轻量版之间做出正确选择的建议。

Veo 3.1 五段式提示词公式

Veo 3.1 对结构化提示词响应极佳——提示词需要依次回答五个问题。少写一个，模型就会自行补全，通常是最平庸的方式。

主体与动作 — 谁或什么，在做什么，在哪里。"一位电影人在昏暗剪辑室里独自审看素材。"
摄影机（运动、镜头、构图） — 景别、焦段、运动方式及速度。"缓慢推进，50mm，中近景，机位锁定后缓缓向前漂移。"
灯光与氛围 — 光源、方向、质感、色调。"单一显示器光作为主光，深度阴影，冷蓝色调，高对比度。"
音频与环境声 — 空间音效、特定声响、音乐方向或 no music。"安静的电流嗡嗡声，偶尔的键盘敲击声，no music。"
技术输出 — 分辨率（是否 4K）、时长预期、风格参考。"4K，8 秒，写实风格。"

完整示例

提示词：

"一位电影人在昏暗剪辑室里独自审看素材。缓慢推进，50mm，中近景，机位锁定后缓缓向前漂移。单一显示器光作为主光，深度阴影，冷蓝色调，高对比度。安静的电流嗡嗡声，偶尔的键盘敲击声，no music。4K，8 秒，写实风格。"

这条提示词不到三十秒就能写完。它以摄影指导向灯光师描述镜头的方式来规定画面，让 Veo 3.1 几乎没有猜测空间。

提示

每条提示词都要加入音频方向，不只是那些声音至关重要的场景。Veo 3.1 会与视频帧同步生成空间音频——不写音频方向并不意味着无声，而是把控制权交给了模型。如果你想要干净的环境音以便后期配乐，请写上 no music。

电影词汇速查表

以下术语可直接转化为 Veo 3.1 的生成指令，按需复制到你的提示词中。

摄影机运动

运动方式	提示词短语
缓慢靠近	"slow dolly-in"、"gentle push-in"
后退拉远	"slow pull-back"、"dolly-out to reveal"
横向跟拍	"smooth tracking shot from the left"、"lateral dolly"
向上升起展现全景	"slow crane up to reveal the skyline"
手持紧张感	"subtle handheld shake, reactive framing"
稳定固定机位	"tripod-locked"、"static wide"
围绕主体弧形运动	"slow arc around the subject"

景别与角度

意图	提示词短语
规模与环境	"wide 18mm, deep focus, full environment"
主体在空间中	"medium shot, eye level"
亲密感	"medium close-up, 50mm"
强烈情绪	"tight close-up, 85mm, shallow focus"
力量与压迫感	"low angle looking up"
脆弱感	"high angle looking down"

灯光

风格	提示词短语
自然暖意	"golden-hour side light, warm highlights, cool shadows"
戏剧性对比	"chiaroscuro, single hard source from camera right"
都市氛围	"neon spill, magenta and cyan, reflections in wet pavement"
清晰采访感	"soft diffused key, slightly warm, low contrast"
夜间存在感	"practical light only — a single lamp, deep background falloff"

前后对比示例

A：摄影机方向——最重要的单一调节杠杆

对 Veo 3.1 提示词影响最大的改动，是加入摄影机运动和焦段。对比如下：

无摄影机描述： "A street musician playing violin in the rain."

有摄影机描述： "Medium close-up of a street musician playing violin in the rain. Slow dolly-in, 85mm, shallow depth of field — background traffic dissolving into blur. Practical street-lamp from above, rim-lighting the bow. Light rain sound, distant traffic, no music."

第二版没有使用一次"cinematic"这个词，却明确规定了让画面具有电影感的所有要素——模型渲染的是你的意图，而不是从十种通用解释中任选一种。

B：图生视频的首帧遵循能力

当你提供参考图片作为首帧时，Veo 3.1 的图片遵循能力尤为突出。模型会将构图、色彩调性和关键角色细节从第一帧中锁定，并在整个生成过程中将其作为约束条件。

实际用法：取一张商业拍摄的静帧、产品渲染图或角色概念图，在 OmniArt 的图生视频工作流中将其设为首帧，然后编写描述从该起点出发的运动的提示词。

提供产品拍摄首帧后的提示词：

"香水瓶静置于白色大理石台面上。从左至右缓慢弧形运动，瓶子保持居中。傍晚时分来自高处窗口的阳光扫过玻璃，照出刻面的光芒。4K，6 秒，no music。"

模型会从你的参考图中继承精确的灯光、产品位置和表面质感，并将描述的运动应用其上——而非从头重新生成场景。

说明

当首帧图片的宽高比和分辨率接近你所生成的目标规格时，图片遵循效果最佳。将正方形图片提供给 16:9 的生成任务会导致裁切或黑边，从而改变模型所继承的构图。

C：用一行提示词生成空间音频

Veo 3.1 的空间音频无需单独处理——在提示词中加入一行描述性音频指令，就足以生成层次丰富、具有方位感的声景。

提示词片段：

"...音频：头顶波纹铁皮屋顶上近距离收录的雨声，远处市场人群嘈杂声，偶尔有摩托车从右至左驶过，no music。"

模型生成的效果：雨声有方向感，你能感受到它从场景上方传来。市场人群声处于中距离。摩托车按描述在立体声场中扫过。方向感来自 Veo 3.1 的原生音频架构，而非后期处理。命名各音层及其空间关系——close、distant、passing left to right——为模型提供了位置渲染所需的所有信息。

在标准、快速和轻量版之间做选择

Veo 3.1 在 OmniArt 上提供三个版本，正确选择取决于任务需求，而非习惯性使用默认选项。

版本	适用场景	积分消耗
`veo-3.1-standard`	最终输出、广播级交付、客户审片、任何 4K 使用场景	每秒最高
`veo-3.1-fast`	在合理质量下进行迭代和提示词优化	中等
`veo-3.1-lite`	快速概念测试、缩略图检查、分镜动态草稿	每秒最低

4K 值得额外积分的情况： 大屏幕交付物、产品主视觉、任何需要全分辨率导出的内容，或模型对背景和材质细节的渲染对项目质量有影响的工作。4K 仅在 veo-3.1-standard 上可用。

4K 浪费积分的情况： 1080p 或更小尺寸的社交媒体裁切、你会反复重新生成的动态草稿、任何处于探索阶段而非交付阶段的内容。这类工作请使用 veo-3.1-lite——廉价迭代，确定最终版本后再切换到标准版进行 4K 生成。

警告

在一个你会多次重新生成的探索性提示词上使用 4K，积分消耗会迅速倍增。先在快速版或轻量版上确定提示词，再将最终版本提交到标准版以 4K 输出。

常见提示词错误

主体描述过度堆砌。 "一位中年女性，卷曲红发，穿着复古大衣，站在阿姆斯特丹的运河边，手捧一束郁金香，神情惆怅" 这样的描述在主体行中堆积了太多细节，模型不得不自行取舍哪些要实际渲染。只保留这个镜头真正必要的特征，其余放手。

摄影机方向相互冲突。 "Slow push-in with a wide pull-back" 在物理上是不可能的——模型会选一个并忽略另一个。每条提示词只写一个有动机的镜头运动。如果你需要一个从宽景逐渐推近的镜头，那就是推进，别无其他。

完全忘记音频。 Veo 3.1 无论你是否指定，都会生成音频。未指定的音频生成不是静默——而是模型的最佳猜测，可能与你的意图不符。每条提示词最后都要加一行音频指令，哪怕只是 no music, ambient room tone only。

把"cinematic"当风格词来写。 写"cinematic"是在要求模型替你做决定。用你真正想要的具体视觉属性来替代它：镜头、光线、运动、色调。

在 OmniArt 上开始创作

Veo 3.1（标准、快速和轻量版）可在 OmniArt 视频工作区中使用，与库中所有其他模型并列。建立熟练度最快的方式是：取一个现有创意，按上述五段式公式写出来，先在 veo-3.1-fast 上生成以优化提示词，再提交到标准版。

如需了解更广泛的电影词汇以及同样的提示词模式如何在 OmniArt 全视频模型阵容中应用，请参阅电影级 AI 视频提示词指南。当你准备深入了解 Veo 3.1 的音频生成能力时，Veo 3.1 空间音频最佳实践指南详细介绍了分层声景、位置音频提示和音乐方向。如需对比 Veo 3.1 与其他顶级模型的表现，请参阅 Veo 3.1 与 Sora 2 对比。

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始