Gemini Omni Flash:已发布的功能与 Google 有意保留的内容
Google 在 I/O 2026 发布了 Gemini Omni Flash——首款 Omni 模型究竟能做什么、哪些功能被刻意保留,以及 OmniArt 创作者的实际应对策略。

Google I/O 2026 于 5 月 19 日如期而至,主题演讲结束的同一天,Gemini Omni Flash 便正式上线。不是"即将推出",不是"限量预览"——而是当天就能用。两周前,我们发布了对 I/O 前泄露信息的解读,区分了已确认信号与猜测内容。现在,真正的模型已经来了。以下是已发布的内容、Google 有意未发布的内容,以及对本周有交付任务的创作者而言这意味着什么。
Omni Flash 是 Google 全新"Omni"体系下的首款公开模型。它不是 Veo 4,也不是 Veo 3.1 的改名——它是一条独立产品线。Google DeepMind 已确认将推出更高级别的 Omni Pro 作为后续版本,但未给出发布日期。Flash 是第一阶段。
已确认发布 vs. 有意保留
泄露分析文章将这款模型定性为"具有全模态野心的 Gemini 原生视频"。事实证明这一判断基本准确。以下是主题演讲尘埃落定后的完整情况。
| 功能 | 状态 | 对创作者的意义 |
|---|---|---|
| 单条提示词生成含同步音频的 10 秒视频片段 | 已发布 | 这个片长天然适合短视频、预告片和片头 |
| 任意对任意输入:文本、图像、音频和视频可同时放入一条提示词 | 已发布 | 可以同时传入参考图、语音备忘和创意简报——一套提示词语法,覆盖三种素材 |
| 对话式/聊天式编辑("改变灯光"、"把狗换成猫") | 已发布 | 泄露文章将其列为真正的头条功能——详见下文 |
| 每个输出均含 SynthID 水印 | 已发布,不可关闭,无 API 开关 | 默认输出带水印;商业使用前请确认平台条款 |
| 编辑生成视频中的语音或音频 | 出于安全考虑被保留 | 涉及深度伪造风险;Google 已确认这是刻意保留,而非技术限制 |
| 虚拟形象模式 | 被保留 | 与音频编辑属同类安全顾虑——未给出时间表 |
| 开发者 API | "未来几周内" | 在 API 正式上线且稳定之前,请勿基于此构建生产流水线 |
警告
Google 还公开承认了三项现有局限性:编辑过程中的视觉一致性、复杂运动序列,以及渲染视频内可读文字。这些也是整个 AI 视频领域共同存在的弱点;Omni Flash 尚未解决它们。
泄露预测 vs. 实际情况
I/O 之前,我们在文章中提出了 Omni 可能是什么的三种情景:Veo 的消费者改版、Gemini 原生视频模型,或者真正的全模态统一系统。我们将"情景 2 与 3 的融合"判断为最可能的结果。
事实证明这一判断是准确的。Omni Flash 明显是 Gemini 原生的——它运行于 Gemini 应用和 Google Flow 之内,而非作为独立的 Veo 产品呈现——并且它的输入确实实现了任意对任意。Google 为其赋予的"全模态"定位并非营销夸大;将文本、图像、音频和视频合并进一条提示词,相较于 Veo 3.1 的输入模型而言是真实的能力转变。
泄露预测有所偏差的地方在于:泄露时提到的"混剪"框架低估了对话式编辑功能的深度。它不只是重新从头混剪,而是能在多轮编辑中保持一致性,这是本质上不同的事情。
对话式编辑才是真正的头条
目前所有主流 AI 视频模型在工作流层面都是同一套逻辑:写提示词、等待、下载片段,如果不满意就重新写提示词。Omni Flash 打破了这一模式。对话式编辑功能让你可以输入"将灯光改为黄金时段"或"把狗换成猫",获得一个与之前输出保持一致性的修改版片段,而不是从头重新生成。
这很重要,因为视频迭代的成本历来都在于重新生成周期——无论是时间还是积分。能够保持一致性的多轮编辑,压缩了从初稿到成品之间的差距。这也意味着模型会以一种"生成即丢弃"的工作流所不具备的方式,保存你项目的上下文状态。
目前已知的局限性是真实存在的:复杂运动序列在多轮编辑中会失去连贯性,模型在精细视觉细节上仍可能出现偏移。但这套工作流原则是成立的,而且随着底层模型的改进,这项功能最有可能经得起时间考验。
Omni Flash 在产品线中的定位
Omni Flash 的优势在于消费者易用性、对话式迭代和多模态输入灵活性。它的局限——10 秒片段、无语音编辑、已知的运动和文字渲染缺陷——也清晰地界定了它的适用场景。
| 你需要的效果 | 推荐使用 |
|---|---|
| 对话式迭代、聊天式精修 | Omni Flash(在 Google 自有平台上) |
| 原生 4K、空间音频、播出级完成度 | Veo 3.1 |
| 长段单镜头 | Sora 2 |
| 多镜头故事板连续性 | Kling, V6 + BACH |
| 快速、风格化、高能量片段 | PixVerse 系列模型 |
| 批量产出的性价比 | Kling(成本效益最佳) |
如需深入了解 Omni Flash 与 Veo 3.1 的逐镜对比,请参阅 Gemini Omni Flash vs. Veo 3.1:哪款模型更适合你的工作流。
如何实际使用
Omni Flash 现已在 YouTube Shorts、YouTube Create、Gemini 应用和 Google Flow 上线。定价通过 Google 的 AI 订阅层级:AI Plus 约 $7.99/月,Ultra 从 $250 降至 $100/月。开发者 API "将在未来几周内"推出,具体日期未定。
关于 Veo 产品线的更多背景,Veo 4 发布状态及 Veo 在 OmniArt 中的定位涵盖了 Veo 3.1 目前能做的事情以及它在多模型工作空间中的位置。
Omni Pro 已确认——但尚无时间表
Google DeepMind 已确认将推出更高级别的 Omni Pro,被描述为"比 Flash 高出一个档次"。目前没有发布日期、没有功能列表、没有预览访问权限。请围绕已发布的内容进行规划,而不是围绕承诺。
如果你的工作流有 Q3 交付任务,今天就基于 Omni Flash 的已确认规格来构建它。等 Omni Pro 发布后,你只是在一个已经在持续产出的工作流中增加一个选项——不是等待它,也不是为它重新搭建平台。
说明
本周该做什么
Omni Flash 在 Google 自有平台上运行——Gemini 应用、YouTube Shorts、Google Flow。如果你想测试对话式编辑,就去那里体验。Google 尚未宣布除"未来几周"开发者时间表之外的任何第三方 API 集成。
在 OmniArt 上,你今天就可以使用 Veo 3.1(原生 4K 和空间音频)以及产品线中的其他模型——PixVerse 系列、Sora 2、Kling、HappyHorse、Seedance 2 等——在一个工作空间内处理图像、视频、音频和音乐。一个账户余额,一套提示词语法,一个地方对比并排的输出结果。
关于在评估 Omni Flash 期间如何充分利用 Veo 3.1 的实用步骤,Veo 3.1 提示词与电影化创作指南涵盖了从创意简报到成品片段的完整工作流。
实际应对策略:使用当前已上线且稳定的模型来完成你手头的工作。等 Omni Pro 发布——或 Omni Flash API 开放——时,你只是在一个已经在持续产出的工作流中加入它,而不是等它来才开始。
常见问题
Gemini Omni Flash 现在可以用吗?
可以。它于 2026 年 5 月 19 日在 Google I/O 2026 发布,当天即通过 YouTube Shorts、YouTube Create、Gemini 应用和 Google Flow 上线。开发者 API 被描述为"未来几周内"推出。
Omni Flash 和 Veo 3.1 有什么区别?
Omni Flash 是 Gemini 原生的,支持任意对任意输入(文本、图像、音频、视频可同时放入一条提示词),并具备对话式多轮编辑能力。Veo 3.1 是专用视频模型,已确认支持原生 4K 输出和空间音频。两者各有所长,目前运行在不同的平台上。
Google 在 Omni Flash 中保留了哪些功能?
两项功能被刻意保留:视频内语音和音频编辑,以及虚拟形象模式。Google 已确认这些是出于安全原因被保留,而非技术限制。两者均未给出发布日期。
Gemini Omni Pro 会取代 Flash 吗?
Google DeepMind 已将 Omni Pro 确认为未来的更高级别模型,被描述为"比 Flash 高出一个档次",但尚未披露任何功能、定价或发布日期。请围绕 Flash 的已确认能力进行规划;将 Omni Pro 视为未来的补充选项。
Omni Flash 是否带有 SynthID 水印?
是的。每个 Omni Flash 输出均包含 SynthID 水印。该水印不可关闭,也没有 API 开关。在商业场景中使用输出之前,请务必查阅平台的服务条款。
准备好创作了吗?
开始用 AI 生成精彩内容