Veo 3.1 提示词与电影级画面完全指南
如何通过结构化提示词让 Veo 3.1 生成广播级画质视频:原生 4K、空间音频与高度的首帧参考遵循——包含可复用的五段式公式与前后对比示例,在 OmniArt 内直接上手。

Veo 3.1 是 OmniArt 的广播级视频模型——当你需要输出画面能在大屏幕上经受考验时,第一个会想到它。它原生支持 4K 输出,空间音频与视频帧同步生成,并在你提供参考图片时对首帧有异常强的遵循能力。但如果提示词含糊不清,这些优势都无从发挥。本指南提供一个可复用的五段式公式,帮你像导演一样指导 Veo 3.1,同时附有前后对比示例、电影词汇速查表,以及如何在标准、快速和轻量版之间做出正确选择的建议。
Veo 3.1 五段式提示词公式
Veo 3.1 对结构化提示词响应极佳——提示词需要依次回答五个问题。少写一个,模型就会自行补全,通常是最平庸的方式。
- 主体与动作 — 谁或什么,在做什么,在哪里。"一位电影人在昏暗剪辑室里独自审看素材。"
- 摄影机(运动、镜头、构图) — 景别、焦段、运动方式及速度。"缓慢推进,50mm,中近景,机位锁定后缓缓向前漂移。"
- 灯光与氛围 — 光源、方向、质感、色调。"单一显示器光作为主光,深度阴影,冷蓝色调,高对比度。"
- 音频与环境声 — 空间音效、特定声响、音乐方向或
no music。"安静的电流嗡嗡声,偶尔的键盘敲击声,no music。" - 技术输出 — 分辨率(是否 4K)、时长预期、风格参考。"4K,8 秒,写实风格。"
完整示例
提示词:
"一位电影人在昏暗剪辑室里独自审看素材。缓慢推进,50mm,中近景,机位锁定后缓缓向前漂移。单一显示器光作为主光,深度阴影,冷蓝色调,高对比度。安静的电流嗡嗡声,偶尔的键盘敲击声,no music。4K,8 秒,写实风格。"
这条提示词不到三十秒就能写完。它以摄影指导向灯光师描述镜头的方式来规定画面,让 Veo 3.1 几乎没有猜测空间。
提示
no music。电影词汇速查表
以下术语可直接转化为 Veo 3.1 的生成指令,按需复制到你的提示词中。
摄影机运动
| 运动方式 | 提示词短语 |
|---|---|
| 缓慢靠近 | "slow dolly-in"、"gentle push-in" |
| 后退拉远 | "slow pull-back"、"dolly-out to reveal" |
| 横向跟拍 | "smooth tracking shot from the left"、"lateral dolly" |
| 向上升起展现全景 | "slow crane up to reveal the skyline" |
| 手持紧张感 | "subtle handheld shake, reactive framing" |
| 稳定固定机位 | "tripod-locked"、"static wide" |
| 围绕主体弧形运动 | "slow arc around the subject" |
景别与角度
| 意图 | 提示词短语 |
|---|---|
| 规模与环境 | "wide 18mm, deep focus, full environment" |
| 主体在空间中 | "medium shot, eye level" |
| 亲密感 | "medium close-up, 50mm" |
| 强烈情绪 | "tight close-up, 85mm, shallow focus" |
| 力量与压迫感 | "low angle looking up" |
| 脆弱感 | "high angle looking down" |
灯光
| 风格 | 提示词短语 |
|---|---|
| 自然暖意 | "golden-hour side light, warm highlights, cool shadows" |
| 戏剧性对比 | "chiaroscuro, single hard source from camera right" |
| 都市氛围 | "neon spill, magenta and cyan, reflections in wet pavement" |
| 清晰采访感 | "soft diffused key, slightly warm, low contrast" |
| 夜间存在感 | "practical light only — a single lamp, deep background falloff" |
前后对比示例
A:摄影机方向——最重要的单一调节杠杆
对 Veo 3.1 提示词影响最大的改动,是加入摄影机运动和焦段。对比如下:
无摄影机描述: "A street musician playing violin in the rain."
有摄影机描述: "Medium close-up of a street musician playing violin in the rain. Slow dolly-in, 85mm, shallow depth of field — background traffic dissolving into blur. Practical street-lamp from above, rim-lighting the bow. Light rain sound, distant traffic, no music."
第二版没有使用一次"cinematic"这个词,却明确规定了让画面具有电影感的所有要素——模型渲染的是你的意图,而不是从十种通用解释中任选一种。
B:图生视频的首帧遵循能力
当你提供参考图片作为首帧时,Veo 3.1 的图片遵循能力尤为突出。模型会将构图、色彩调性和关键角色细节从第一帧中锁定,并在整个生成过程中将其作为约束条件。
实际用法:取一张商业拍摄的静帧、产品渲染图或角色概念图,在 OmniArt 的图生视频工作流中将其设为首帧,然后编写描述从该起点出发的运动的提示词。
提供产品拍摄首帧后的提示词:
"香水瓶静置于白色大理石台面上。从左至右缓慢弧形运动,瓶子保持居中。傍晚时分来自高处窗口的阳光扫过玻璃,照出刻面的光芒。4K,6 秒,no music。"
模型会从你的参考图中继承精确的灯光、产品位置和表面质感,并将描述的运动应用其上——而非从头重新生成场景。
说明
C:用一行提示词生成空间音频
Veo 3.1 的空间音频无需单独处理——在提示词中加入一行描述性音频指令,就足以生成层次丰富、具有方位感的声景。
提示词片段:
"...音频:头顶波纹铁皮屋顶上近距离收录的雨声,远处市场人群嘈杂声,偶尔有摩托车从右至左驶过,no music。"
模型生成的效果:雨声有方向感,你能感受到它从场景上方传来。市场人群声处于中距离。摩托车按描述在立体声场中扫过。方向感来自 Veo 3.1 的原生音频架构,而非后期处理。命名各音层及其空间关系——close、distant、passing left to right——为模型提供了位置渲染所需的所有信息。
在标准、快速和轻量版之间做选择
Veo 3.1 在 OmniArt 上提供三个版本,正确选择取决于任务需求,而非习惯性使用默认选项。
| 版本 | 适用场景 | 积分消耗 |
|---|---|---|
veo-3.1-standard | 最终输出、广播级交付、客户审片、任何 4K 使用场景 | 每秒最高 |
veo-3.1-fast | 在合理质量下进行迭代和提示词优化 | 中等 |
veo-3.1-lite | 快速概念测试、缩略图检查、分镜动态草稿 | 每秒最低 |
4K 值得额外积分的情况: 大屏幕交付物、产品主视觉、任何需要全分辨率导出的内容,或模型对背景和材质细节的渲染对项目质量有影响的工作。4K 仅在 veo-3.1-standard 上可用。
4K 浪费积分的情况: 1080p 或更小尺寸的社交媒体裁切、你会反复重新生成的动态草稿、任何处于探索阶段而非交付阶段的内容。这类工作请使用 veo-3.1-lite——廉价迭代,确定最终版本后再切换到标准版进行 4K 生成。
警告
常见提示词错误
主体描述过度堆砌。 "一位中年女性,卷曲红发,穿着复古大衣,站在阿姆斯特丹的运河边,手捧一束郁金香,神情惆怅" 这样的描述在主体行中堆积了太多细节,模型不得不自行取舍哪些要实际渲染。只保留这个镜头真正必要的特征,其余放手。
摄影机方向相互冲突。 "Slow push-in with a wide pull-back" 在物理上是不可能的——模型会选一个并忽略另一个。每条提示词只写一个有动机的镜头运动。如果你需要一个从宽景逐渐推近的镜头,那就是推进,别无其他。
完全忘记音频。 Veo 3.1 无论你是否指定,都会生成音频。未指定的音频生成不是静默——而是模型的最佳猜测,可能与你的意图不符。每条提示词最后都要加一行音频指令,哪怕只是 no music, ambient room tone only。
把"cinematic"当风格词来写。 写"cinematic"是在要求模型替你做决定。用你真正想要的具体视觉属性来替代它:镜头、光线、运动、色调。
在 OmniArt 上开始创作
Veo 3.1(标准、快速和轻量版)可在 OmniArt 视频工作区中使用,与库中所有其他模型并列。建立熟练度最快的方式是:取一个现有创意,按上述五段式公式写出来,先在 veo-3.1-fast 上生成以优化提示词,再提交到标准版。
如需了解更广泛的电影词汇以及同样的提示词模式如何在 OmniArt 全视频模型阵容中应用,请参阅电影级 AI 视频提示词指南。当你准备深入了解 Veo 3.1 的音频生成能力时,Veo 3.1 空间音频最佳实践指南详细介绍了分层声景、位置音频提示和音乐方向。如需对比 Veo 3.1 与其他顶级模型的表现,请参阅 Veo 3.1 与 Sora 2 对比。
准备好创作了吗?
开始用 AI 生成精彩内容