industry模型与洞察14 min read
Journal · 模型与洞察

Gemini Omni 泄露:Google 视频模型意味着什么

Google I/O 2026 前夕,泄露指向一个叫 Gemini Omni 的视频模型。哪些已确认、哪些仍是传闻,本周 OmniArt 创作者该怎么做。

OmniArt 团队·
Gemini Omni 泄露:Google 视频模型意味着什么

Google I/O 2026 将在 5 月 19 日至 20 日召开,AI 视频圈的互联网已经把主题演讲提前过了一遍。原因是 Gemini 视频标签页里被人扒到了一行 UI 文案:"Start with an idea or try a template. Powered by Omni."(从一个想法开始,或试试模板。由 Omni 驱动。)就靠这一行,三波泄露搭出了一个尚未官宣的 Google 视频模型的雏形 —— 暂被称作 Gemini Omni —— 它要么会取代 Veo 3.1,要么会和它并行,要么悄悄升级 Google 整套生成式栈。

这篇是给 OmniArt 创作者准备的判断稿,帮你决定在周二之前要不要 —— 或者要 —— 做点什么。我们会把已确认信号和猜测分开,过一遍 Omni 的三种可能身份,并给出本周还要交付视频的创作者真正能用上的建议。

现在到底知道什么、不知道什么

信号状态含义
Gemini 视频标签页里的 "Powered by Omni" 文案已被截图确认一个叫 Omni 的产品被放在 feature flag 后面准备发布
模型 ID bard_eac_video_generation_omni应用检查中被发现Gemini 视频管线里串了一个内部标识符
单条 10 秒上限早期测试者报告暗示是早期阶段或消费端约束,而不是 API 档
"Remix your videos, edit directly in chat, try a template"报告中的功能文案改剪辑、重混的工作流,不只是生成
视频中文字一致性强(如数学公式)演示报道视频内排版的显著技术进步
原生音频未确认Veo 3.1 自带原生音频;Omni 的状态尚不清楚
API 访问未确认开发者不应该基于未确认的能力做计划
取代、补充还是品牌重塑 Veo 3.1悬而未决这是制作团队最关心的问题

实事求是地说:一款叫 Omni 的 Google 视频产品已经实在到足以印 UI 文案,但围绕它的每一项架构主张,仍是基于应用字符串和测试者反馈的推断。

三种可能身份

大多数不确定性都可以收敛到三种情景。每一种对创作者依赖的 AI 视频工具阵容都有不同含义。

情景 1 —— Veo 的消费端品牌重塑

最简单的读法:Omni 是 Gemini 内部"Veo"的消费端门面,类似 Google 把图像生成统一收进 "Nano Banana"。Veo 仍是底层引擎;Omni 是大多数用户看到的那一层。

如果属实,预期是:相对 Veo 3.1 能力变化有限、消费端仍维持 8–10 秒上限、Veo 继续在企业/API 通道上演化。

情景 2 —— Gemini 原生视频模型

第二种读法:Omni 是基于 Gemini 架构、专门为视频微调的版本,与 Veo 通道并行。Veo 留给 API 与企业;Omni 是消费端模型,借助 Gemini 的文本与推理能力。

如果属实,预期是:更强的提示词贴合、更好的视频内排版(数学公式相关的报道支持这一点),以及与 Gemini 聊天式编辑更紧密的集成。

情景 3 —— 真正的 omni 多模态模型

最有野心的读法:Omni 是一个统一系统,原生从同一个模型生成文本、图像、视频和音频。"Omni"这个名字本身就在暗示 Google 正在朝这个方向定位,即便首发版本未必到位。

如果属实,预期是:工作流明显向对话式编辑倾斜,聊天里就完成多模态切换,并在更长周期上挑战其余各家"一种模态一个模型"的栈结构。

I/O 上最可能的落点是情景 2 与 3 的混合 —— 一个带有 omni 多模态野心、但首发就有消费端限制的 Gemini 原生视频模型。

为什么报告中的几项功能更值得关注

报告中有三项功能比"Omni 究竟是谁"更值得讨论,因为不管谁先发,它们都标出了 AI 视频品类的走向。

对话式编辑成为默认

"在聊天里 remix 你的视频,直接编辑"是泄露里最能改写工作流叙事的一句。今天大多数 AI 视频工具仍是"生成-下载"——提示、等待、保存、再提示。聊天式编辑把模型重新框定为持续协作者:"让第二个镜头暖一点"、"换掉背景"、"再延长三秒"。如果 Omni 把这套做到位,会逼着每个其他模型跟上。

模板作为入门坡

模板降低了新用户的提示词工程门槛 —— 这是真实收益。但当人人都从同一份共享提示词起步,输出多样性也会被拉平。值得追问的不是模板会不会上,而是它能不能明显跑赢一份从头写好的 brief。

视频里的文字

报道里提到的数学公式在生成视频中清晰渲染,在技术上很值得注意。视频内排版长期是各家头部模型可见的弱点。如果 Omni 能稳定处理复杂排版,那解释类视频、教育和动态图形的工作流就被打开了,而它们以前要靠合成补救。

Omni 会怎么嵌入阵容

对已经在多个 AI 视频模型上跨着用的创作者,相关问题不是"Omni 赢没赢",而是"它落到阵容里的哪一格"。基于报告中的功能集,答案的轮廓大致是这样:

能力Gemini Omni(报告)Veo 3.1(已确认)V6 / R1Sora 2
时长10 秒(报告)最高 8 秒1–15 秒最高 20 秒
分辨率未知最高 1080p最高 1080p1080p,可用 4K
原生音频未确认已确认内置内置
编辑 / remix报告:remix、聊天、模板有限Modify、Extend、多片段有限
API 访问未确认可用可用可用
最强项对话式编辑(报告)原生 4K、空间音频电影感控制、实时长单镜头

如果泄露的功能集成立,Omni 的车道是"对话式消费级视频" —— 在快速社媒和聊天式迭代上是个甜点。电影感、广播和多镜头的车道,在拿到证据前仍归现有的几位领跑者。

这一周创作者该做什么

预发布泄露最容易把人钓住"先等等再说"。对未来十天有交付的人,我们会反过来推一下。

Warning

把媒体上的每一项 Omni 功能都当作预发布信号,而不是已确认能力。基于报告规格搭起来的计划,能扛过主题演讲的大概只有一半。

具体怎么做,看你要交付什么。

本周就要交视频

用已上线、已经验证过的。V6 出电影感镜头,Veo 3.1 出原生 4K 的广播切片,Kling 3.0 出多语言社媒切片,HappyHorse 1.0 做快速迭代。这些在 OmniArt 里都只隔一次点击,没必要在主题演讲之前押注任何单一工具。

在规划 Q3 产能

围绕能力来写 brief,而不是围绕品牌。把你真正需要的列下来 —— 时长、分辨率、音频、编辑模型、角色锁 —— 让两周后 I/O 后的阵容重新来竞标这份活儿。如果 Omni 上线并交付到位,它接进 brief 不用重写其它管线。

在做调研和学习

主题演讲该看,但要存的是测试结果,不是观点。发布之后最值钱的东西,是一份同样 brief、同样参考素材、同样评分表跑出来的对照 —— 同时跑 Omni(如果发布)、Veo 3.1 以及现有阵容。

Omni 真正在标出的更大转向

不管 Omni 最终是什么,泄露把品类讲清楚的程度,比把 Google 自己讲清楚的程度更高。

竞争面在移动。 头部模型的首条出图质量正在收敛。真正的差异化正在向可控性、多镜头一致性、音画同步、对话式编辑以及"模型有多贴合真实工作流"转移 —— 而不是哪个模型在某个 benchmark 上赢。

成本仍然是真实的。 Omni UI 里反复出现的用量限制和消耗面板,都印证了高保真视频生成在量产层面依然算力昂贵。模板和短片段上限,一半是 UX,一半是经济账。

版权与 remix 变得更难。 在生成视频之上加 remix 工作流,会暴露文生视频流程没那么充分展开的 IP、肖像权与商用问题。任何要把 remix 输出投放进付费媒体的团队,应该在功能上线之前就把版权清单准备好。

OmniArt 打算怎么处理

OmniArt 工作区接入新模型有两道门槛:稳定的公开可用性,以及现有阵容覆盖不到的真实创作工作。一旦 Gemini Omni 真的落地,我们会用这两条来评。

如果 Omni 在 I/O 上发布并过线,它会和 Veo 3.1、Sora 2、V6、Kling 3.0、HappyHorse 1.0、Seedance 2.0、Runway Gen-4.5、Hailuo、Grok Imagine 一起进入工作区 —— 一套提示词语法、一个余额、一个把它和其它模型直接对比的地方。

关于当前视频阵容的背景,请看 OmniArt 视频模型导览。关于如何写出能在任意模型上跑得稳的 brief,请看 提示词写作指南

常见问题

Gemini Omni 已经官宣了吗?

没有。截至 2026 年 5 月 13 日,Google 尚未官宣 Gemini Omni。产品名、模型 ID 和功能文案来自应用 UI 字符串和早期测试者的反馈。Google I/O 2026(5 月 19–20 日)是最可能的发布窗口。

Gemini Omni 会取代 Veo 3.1 吗?

不清楚。三种可能:Omni 是 Veo 在消费端的品牌重塑;Omni 作为 Gemini 原生消费模型与 Veo 并行;或者 Omni 是真正的 omni 多模态统一系统。首发最可能是第二与第三种的混合。

Gemini Omni 报告中包含哪些功能?

报告中的功能包括 Gemini 聊天内的对话式编辑、remix 工作流、提示词模板、视频内文字一致性强(数学公式渲染清晰),以及单条 10 秒上限。这些都尚未官方确认。

我要不要等 Omni 之后再做本周的视频?

不用。用今天已经上线、稳定的模型。阵容已经覆盖了电影感画面、原生 4K 广播、多语言社媒、快速迭代、多镜头一致性以及帧级 VFX。如果 Omni 上线并过线,可以无缝接进去,不用重写其它管线。

Omni 和 Veo 3.1 怎么比?

基于报告中的规格,Omni 的优势在对话式编辑以及可能的视频内排版;Veo 3.1 已确认的强项是原生音频与 4K 输出。在 Omni 公开可用之前,无法做直接对比。

Start creating

准备好创作了吗?

开始用 AI 生成精彩内容