industry模型与洞察16 分钟阅读

Grok Imagine 1.5 vs 1.0：+52 Elo 究竟带来了什么变化

xAI 的 Grok Imagine 1.5 在 1.0 基础上提升了 +52 Elo，一举登顶图生视频竞技场排行榜。我们将这次进步拆解为创作者能实际感受到的四项变化——原生音频、15 秒时长、面部一致性以及“从指定帧延伸”功能，并附上 OmniArt 中的前后对比。

OmniArt 团队2026年6月12日

Grok Imagine 1.5 以预览版更新的形式发布，并取得了显著进步：在 1.0 的基础上提升 +52 Elo，超越 Seedance 2.0、HappyHorse 1.0 和 Google Veo，一举登顶图生视频竞技场盲测排行榜。在一个趋于成熟的排行榜上跃升 52 分是个有力信号——这意味着在 1.5 与 1.0 的直接对比中，1.5 的盲测胜率约为 57%。

数字是标题，但对实际生产工作而言，更重要的是哪些具体变化推动了这一结果。我们在 OmniArt 视频工作区中同时运行了 1.5 和 1.0，发现进步清晰地集中在创作者能立即感受到的四个方面，没有一个是细微差异。

如果你是 Grok Imagine 的新用户，建议先阅读基础指南——其中详细介绍了六种生成模式、提示词写法和积分计算方式。本文默认你已经用 1.0 生成过若干片段，只想了解哪些内容值得重新生成。

快速规格对比：1.0 vs 1.5

规格	Grok Imagine 1.0	Grok Imagine 1.5
最高分辨率	720p	720p
最长时长	10 秒	15 秒
宽高比	16:9、4:3、1:1、9:16、3:4、3:2、2:3	16:9、4:3、1:1、9:16、3:4、3:2、2:3
音频	原生联合生成	原生联合生成——已改进
面部一致性	基础水平	明显改进
从指定帧延伸	支持末帧续接	支持明确帧选择，续接连贯性更佳
图像生成底座	FLUX.1（Black Forest Labs）	FLUX.1（Black Forest Labs）
费用（480p）	10 积分/秒	10 积分/秒
费用（720p）	15 积分/秒	15 积分/秒
竞技场排名	排名靠后	图生视频竞技场第一名

分辨率上限和积分定价未变。进步体现在模型在这些约束条件内的表现上。

变化一：原生音频听起来像一次性生成

Grok Imagine 从 1.0 起就能生成音频——对话、口型同步、音效和环境音乐，全部通过单次推理中的视频 token 构建完成，无需额外拼接独立音频模型。实际使用中，1.0 的音频有两个一贯的问题：对话的机械节奏（台词按均匀间隔出现，在语法边界停顿，而非自然呼吸点），以及单调的环境音（咖啡馆场景只有一层单调的背景嗡嗡声，缺乏空间层次）。

1.5 同时解决了这两个问题。相同的单次生成架构现在能产生句子级别的语调变化——简短有力的短语有自然下降的语调，较长的解释性句子在结尾前有可察觉的语调上扬。环境音变得更有层次感：街道场景中，远处有车辆声，近处有脚步声，背景中有隐约的店门声。这些效果并非后期处理，而是使用 Aurora 引擎生成动态的同一套逐帧序列逻辑生成的——每帧都会参考上一帧，音频环境随视觉轨迹同步演进。

1.0 提示词： "一位咖啡师隔着吧台向顾客讲解冲泡过程，咖啡馆背景，暖光。"

1.0 结果：台词以匀速短促片段出现，浓缩机的环境音自始至终保持同一音量。
1.5 结果：咖啡师的讲解有自然的句中停顿，另一笔订单开始时浓缩机音量随之升高，顾客的低声回应音量更小，且在空间上更靠近音频轴的远端。

对话密集的片段差距最为明显。如果你此前一直把 Grok 1.0 的视频通过独立音频模型处理配音，1.5 在原生层面已经填补了大部分差距。

变化二：10 秒变 15 秒

Grok Imagine 1.0 将片段时长上限设为 10 秒。1.5 将其提升至 15 秒，支持 1 到 15 秒之间的任意整数时长。多出的五秒听起来微不足道，但实际上决定了一个社交视频是否需要额外延伸一次，还是直接在首次生成时就能完成。

对常见使用场景来说，积分计算方式发生了实质性变化：

使用场景	1.0（10 秒上限 + 延伸至 15 秒）	1.5（原生 15 秒）
15 秒 TikTok，480p	100（10s）+ 75（5s 延伸）= 175	150
15 秒 TikTok，720p	150（10s）+ 112.5（5s 延伸）= 262.5	225
10 秒产品展示，720p	150	150（无变化）

对最常见的社交视频格式——15 秒片段——1.5 相较于 1.0 的"生成再延伸"方案，在 480p 下节省约 14%，在 720p 下同样节省约 14%，同时还能避免延伸连接点处偶尔出现的接缝瑕疵。

延伸模式在 1.5 中仍然可用，用于生成 15 秒以上的内容。但你只需要在真正需要更长时长时才为延伸部分付费，而不是因为基础生成被迫截断。

变化三：面部精度与角色一致性

这是最难量化、却在社区反馈中被最一致提及的变化。Grok Imagine 1.0 能在开头帧生成逼真的面孔，但随后可能逐渐变形——尤其在头部转动、光线变换或快速运动时，帧间特征出现漂移。通过参考模式引入的角色在较长片段中面部比例会发生偏移。

1.5 在架构层面解决了这一问题。Aurora 引擎的逐帧序列生成——每帧参考上一帧——现在能在旋转和光线变化过程中更稳定地保持面部关键点。社区反馈模式高度一致：此前会产生诡异变形的头部转动动作，现在在正常播放速度下能自然完成。

单一参考模式提示词的前后对比： "[@Image1] 走过一条弥漫着雾气的小巷向镜头靠近，面部清晰可见，在 8 秒处略向右转，头顶暖色路灯光。"

1.0：主体在行走过程中保持了一致的身份，但右转时在转动中途出现了明显的下颌宽度偏移，在转动结束时骤然归位。
1.5：同样的转动动作完整呈现，无矫正瑕疵。整个旋转过程中下颌和颧骨比例保持稳定。

对任何以角色面部为主要拍摄对象的场景来说，这一变化至关重要——如面对镜头讲话的内容、以角色为中心的叙事、有代言人出现的产品演示，以及任何使用参考模式在多个镜头中锚定一致身份的片段。

提示

角色一致性在延伸模式中会叠加增强。在 1.5 中，延伸片段能继承原始生成所建立的面部关键点稳定性。由于两段内容现在共享相同的面部几何基准，延伸衔接处的接缝比 1.0 更难察觉。

变化四：从指定帧延伸——将片段串联至短片长度

1.0 的延伸模式会在片段末尾追加帧，但控制方式有限：你只需提交一个片段，让模型继续生成。1.5 的"从指定帧延伸"功能新增了明确的帧选择——你可以选择要从哪一个具体的最终帧继续，模型将从那个确切的视觉状态恢复生成：相同的主体位置、相同的光线方向、相同的镜头轨迹、相同的大气条件。

当一次生成的开头和中间部分都很理想，但最后几帧偏离了你的意图时，这一差异就变得至关重要。在 1.0 中，不完美的最终帧意味着要么接受它作为延伸的起点，要么重新生成整个片段。在 1.5 中，你可以选择生成内容中较早的一帧——那个真正想要继续的、构图更干净的时刻——从那里延伸。

较长内容的实际工作流程：

生成一段 15 秒的开场片段，回顾并找出最佳结束帧。
使用"从指定帧延伸"，选择该帧，生成接下来的 15 秒。
重复操作，直到达到所需时长。

以每段 15 秒计算，三段串联可产出 45 秒素材，且角色、光线和镜头状态在衔接处均保持一致。对于一个按秒计费（10 至 15 积分/秒）的模型而言，这已足够完成产品演示、短广告或叙事片开场序列。

说明

OmniArt 中的延伸模式可跨模型使用，不限于 Grok Imagine。你可以用其他模型生成开场内容，再用 Grok Imagine 1.5 的"从指定帧延伸"功能续接，将角色一致性的改进带入来自其他模型的素材。

+52 Elo 实际对应的内容

竞技场的分差可分解为上述四项变化，权重取决于各项在日常生产中的出现频率：

变化	对 Elo 的影响	在哪里感受到
音频自然度	高	含对话或多层环境音的任何片段
原生 15 秒时长	中	15 秒社交格式；依赖延伸的工作流程
面部一致性	高	面对镜头讲话、参考模式角色工作、头部转动
从指定帧延伸	中	多段制作、串联片段

竞技场专门测试图生视频——输入静态图，输出动态视频。在这一语境下，面部一致性和音频自然度是盲测投票者最容易察觉的两个质量维度，这解释了大部分 Elo 提升的来源。时长和"从指定帧延伸"对正在制作多镜头项目的资深用户更为重要，而非对观看 5 秒片段的盲测投票者。

是否应该重新生成 1.0 项目？

简短版本：如果项目以面部为主要拍摄对象，应该重新生成；如果你之前用"生成 + 延伸"方式制作 15 秒内容，也应该重新生成。其他情况则视具体项目而定。

立即重新生成，如果：

你在 1.0 中生成了以面对镜头讲话或角色为核心的片段，并注意到片中出现了面部漂移。相同的参考模式输入在 1.5 中应该能产生明显更干净的效果。
你把 15 秒片段拆成"10 秒 + 5 秒延伸"来制作，并遭遇了接缝瑕疵。1.5 的原生 15 秒生成消除了连接点。
音频是唯一还不满意的地方，而视觉部分已经基本到位。1.5 的自然语调和分层环境音无需重新调整视觉提示词，就能解决最常见的音频问题。

不值得重新生成，如果：

片段仅有动态画面，没有角色或对话——720p 的视觉质量上限没有变化，单段输出的延伸改进也微乎其微。
你大量使用了修改模式——修改模式仍然会将所有超过 854×480 的输入降采样至 480p 再处理，1.5 中该行为未变。
原始片段是时长较短（8 秒以内）的无角色氛围空镜。环境音改进确实存在，但按当前积分定价来看，重新生成的回报可能不够高。

警告

修改模式的 480p 降采样上限在 1.5 中未变。如果需要在不损失分辨率的情况下编辑 720p 片段，请在最终 720p 生成之前完成修改步骤，而非之后。

在 OmniArt 上开始使用

Grok Imagine 1.5 已在 OmniArt 视频工作区上线，可与 V6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0 和 Seedance 2.0 并排使用。无需单独订阅 xAI——同一个 OmniArt 积分余额覆盖所有模型。

校准 1.5 的最快方式是运行一个你在 1.0 中已经熟悉的提示词。相同输入，并排输出，面部和音频的改进立即可见。从这里开始，再决定哪些 1.0 项目值得重新生成。

关于六种模式的完整说明、积分计算和参考模式提示词写法，请参见 Grok Imagine 指南。关于 Grok Imagine 的图生视频排名在 2026 年整体横向对比中的位置，请参见最佳图生视频模型榜单。

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始