guide教程与操作指南12 分钟阅读

如何为 Gemini Omni Flash 写好 10 秒视频提示词

Gemini Omni Flash 的提示词接口很特别：没有反向提示词参数、只有两种宽高比、仅支持英文，还分为两种截然不同的提示模式。本文教你把两种模式都写好。

OmniArt 团队2026年7月1日

大多数 AI 视频提示词指南只教你写一样东西：一段丰富、细致、一次性交给模型的描述文字。Gemini Omni Flash 打破了这个前提。它的开发者 API（已于 6 月 30 日开放）围绕两种不同的提示行为构建——首次生成，以及随后一连串的对话式修改，每一次都在重塑同一段片段。只写好其中一种、忽略另一种，你就浪费了这款模型的大半能力。

Omni Flash 的提示词接口在"减法"上也很不寻常。没有反向提示词字段，没有温度调节，没有系统指令，宽高比只有两种。这些并不是需要你盲目绕开的缺口——每一项都会改变你该如何组织提示词。本文覆盖两种模式，以及塑造它们的各项约束。

说明

截至 2026 年 7 月 1 日，Gemini Omni Flash 可通过 Google AI Studio、Gemini API、Gemini 应用和 Google Flow 使用——尚未接入 OmniArt 工作台。下文各节讲解的是如何直接向 Google 自有工具写提示词；结尾一节会梳理哪些习惯可以迁移到当前已在 OmniArt 上线的视频模型上。

两种提示模式，而非一种

每一次 Omni Flash 会话都有两类提示词，它们各自适合不同的写法。

首次生成提示词是一份完整的镜头简报，对应单个 10 秒的画面节拍：主体、运动、镜头、光线、声音、风格。它的行为与任何优秀的文生视频或图生视频提示词一致——把细节前置，写得具体，一次性描述整个镜头。

对话式修改指令则恰好相反。它简短、只点出一处改动，并默认模型已经在上下文中持有先前的片段。"把光线改成黄金时刻。""把轿车换成皮卡。"模型在应用这处改动的同时，保留你没有提及的一切——这依靠 previous_interaction_id 通过 Interactions API 在最多三次连续修改之间承接会话状态。把三处改动塞进一条修改指令里，你就失去了让这个模式值得使用的那份精准。

心智模型是这样的：**在首次提示词里"构图"，在后续提示词里"执导"。**先拿到一段稳固的基础片段，然后像在拍摄现场给导演递意见那样去打磨它——一次一条。

塑造你措辞的那些 API 约束

Omni Flash 的参数列表是刻意精简的。每一处省略都会带来一个提示词层面的后果：

约束	对提示词意味着什么
没有反向提示词字段	把排除项写进提示词本身——"一条空街，没有行人，没有车流"，而不是另列一份反向清单
没有温度 / top_p / 系统指令	你无法调节随机性，也无法设定持久的风格规则——每次都要把语气和风格直接写进提示词文字里
宽高比仅有 9:16 或 16:9	一开始就选好朝向；没有正方形或宽银幕电影比例，因此从第一个词起就要按竖版或横版来取景
声音只能用文字描述，无法上传	你无法交给它一段音轨去匹配——只能用文字描述你想要的声音（见下文）
完整支持英文；其他语言未经测试	用英文写提示词才能得到可预期的结果
硬性 10 秒上限	每次生成只做一个清晰的动作——而不是一份分镜清单

警告

Omni Flash 没有音频参考上传功能。你无法给它一段配乐或一份人声样本去同步。它默认会生成一条音轨，而你唯一的控制手段就是提示词里的文字——所以声音设计必须"写"出来，而不是"附加"进去。

首次生成的模板

因为 10 秒只容得下一个节拍，最强的首次提示词会描述一个连续的瞬间，并把每一层都指定清楚。六个槽位几乎能覆盖任何镜头：

主体——画面上是谁或是什么，具体地描述出来
运动——贯穿整段片段的那一个动作
镜头——单一的一次运镜，而不是一串连招（"缓慢推进""固定机位广角"）
光线——方向、质感、一天中的时段
声音设计——你想要生成的声音，用文字写出来
风格——色调、年代、影片参考、质感

一个完整示例：

"A ceramic pour-over coffee dripper on a pale oak counter, steam rising as dark coffee streams into the glass carafe below. Slow push in on the drip. Soft morning light from a window camera-left, warm and diffused. Sound: gentle water trickle, distant kitchen ambience, no music. Muted editorial palette, shallow depth of field, shot on a fast prime lens."

注意排除项就写在句子内部（"no music"），镜头是单一的一次运镜，声音也被写得明明白白。这就是全部的门道。

对话式编辑：真正奏效的词汇

一旦有了基础片段，"修改"才是 Omni Flash 甩开"生成即抛弃"式工作流的地方。让每条指令只承载一个意图，并依赖一套模型能干净读懂的、一致的动词词汇：

重打光——"make it golden hour""add a cool rim light from behind"
替换——"swap the coffee dripper for a French press"
换风格——"make it feel like 1970s film stock"
改颜色——"change the mug to matte black"
改节奏——"slow the pour down""let the steam linger longer"

两条规则能让整条对话线保持连贯。每轮只改一处——模型会保留你没提及的部分，所以单点修改既更可预期，也更容易通过重新提示来撤销。以及在上一轮的措辞基础上叠加——复用你已经建立的名词（"the mug""the pour"），让模型锚定到同一批元素，而不是重新推断整个场景。

提示

三次修改的链条是一份预算，而不是一条建议。规划基础提示词时就让它需要尽可能少的后续修改——一次强有力的首次生成，能把你的修改轮次留给真正的创意改动，而不是拿去修补那些首次提示词本该指定好的东西。

与当前限制共处

有几项限制无法靠提示词解决，与其硬碰，不如带着它们去写提示词：

**10 秒上限。**API 里没有场景延展功能，所以别写暗示更长叙事弧的提示词。设计一个能独立成立的节拍。
跨场景切换时的人物一致性是公认的弱项。如果相似度很重要，就把修改保持在同一场景内，而不是要求模型把人物挪到一个新环境里。
**超过 3 秒的视频参考不会被完整处理。**任何参考片段都要保持简短、直击要点。
不支持多视频参考，也不支持语音编辑——两者都无法使用，所以把这些步骤规划进另一个工具，而不是塞进提示词里。

对于一款快速、短视频迭代工具而言，这些都不构成硬伤。它们只是意味着 Omni Flash 会奖励那些被限定在它擅长范围内的提示词：一个紧凑的节拍，靠对话来打磨。

哪些能力如今就能迁移到 OmniArt

Omni Flash 还没进入 OmniArt 工作台，但上文几乎每一个习惯都能迁移到那些已经上线的视频模型上——因为底层的功夫（一个清晰的节拍、以具体性取代关键词堆砌、把声音写进提示词）本就与模型无关。

参考驱动的生成直接对应 Seedance 2.0，它已在 OmniArt 上线，最多可接受九张图像、三段视频和三个音频文件，并用 @image1 / @video1 语法绑定到各自的角色——这正是"从素材构图"的思路，而且输入数量比 Omni Flash 更多。
电影级镜头语言对应 Veo 3.1，它以克制感解读"drift""glide""dolly in"这类运动动词。
六槽位模板（主体、运动、镜头、光线、声音、风格）与那套能在工作台内每一款视频模型上产出干净结果的骨架完全相同。

打开 OmniArt 上的视频工作台，挑一款贴合镜头的模型，把首次提示词当作一个完整的节拍来写。等到 Omni Flash 上线，上文那套双模式工作流才是你要补上的部分——而提示词功夫，你早就已经在练了。

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始