industry模型与洞察16 分钟阅读

Grok Imagine 1.5 vs 1.0:+52 Elo 究竟带来了什么变化

xAI 的 Grok Imagine 1.5 在 1.0 基础上提升了 +52 Elo,一举登顶图生视频竞技场排行榜。我们将这次进步拆解为创作者能实际感受到的四项变化——原生音频、15 秒时长、面部一致性以及“从指定帧延伸”功能,并附上 OmniArt 中的前后对比。

OmniArt 团队
Grok Imagine 1.5 vs 1.0:+52 Elo 究竟带来了什么变化

Grok Imagine 1.5 以预览版更新的形式发布,并取得了显著进步:在 1.0 的基础上提升 +52 Elo,超越 Seedance 2.0、HappyHorse 1.0 和 Google Veo,一举登顶图生视频竞技场盲测排行榜。在一个趋于成熟的排行榜上跃升 52 分是个有力信号——这意味着在 1.5 与 1.0 的直接对比中,1.5 的盲测胜率约为 57%。

数字是标题,但对实际生产工作而言,更重要的是哪些具体变化推动了这一结果。我们在 OmniArt 视频工作区中同时运行了 1.5 和 1.0,发现进步清晰地集中在创作者能立即感受到的四个方面,没有一个是细微差异。

如果你是 Grok Imagine 的新用户,建议先阅读基础指南——其中详细介绍了六种生成模式、提示词写法和积分计算方式。本文默认你已经用 1.0 生成过若干片段,只想了解哪些内容值得重新生成。

快速规格对比:1.0 vs 1.5

规格Grok Imagine 1.0Grok Imagine 1.5
最高分辨率720p720p
最长时长10 秒15 秒
宽高比16:9、4:3、1:1、9:16、3:4、3:2、2:316:9、4:3、1:1、9:16、3:4、3:2、2:3
音频原生联合生成原生联合生成——已改进
面部一致性基础水平明显改进
从指定帧延伸支持末帧续接支持明确帧选择,续接连贯性更佳
图像生成底座FLUX.1(Black Forest Labs)FLUX.1(Black Forest Labs)
费用(480p)10 积分/秒10 积分/秒
费用(720p)15 积分/秒15 积分/秒
竞技场排名排名靠后图生视频竞技场第一名

分辨率上限和积分定价未变。进步体现在模型在这些约束条件内的表现上。

变化一:原生音频听起来像一次性生成

Grok Imagine 从 1.0 起就能生成音频——对话、口型同步、音效和环境音乐,全部通过单次推理中的视频 token 构建完成,无需额外拼接独立音频模型。实际使用中,1.0 的音频有两个一贯的问题:对话的机械节奏(台词按均匀间隔出现,在语法边界停顿,而非自然呼吸点),以及单调的环境音(咖啡馆场景只有一层单调的背景嗡嗡声,缺乏空间层次)。

1.5 同时解决了这两个问题。相同的单次生成架构现在能产生句子级别的语调变化——简短有力的短语有自然下降的语调,较长的解释性句子在结尾前有可察觉的语调上扬。环境音变得更有层次感:街道场景中,远处有车辆声,近处有脚步声,背景中有隐约的店门声。这些效果并非后期处理,而是使用 Aurora 引擎生成动态的同一套逐帧序列逻辑生成的——每帧都会参考上一帧,音频环境随视觉轨迹同步演进。

1.0 提示词: "一位咖啡师隔着吧台向顾客讲解冲泡过程,咖啡馆背景,暖光。"

  • 1.0 结果:台词以匀速短促片段出现,浓缩机的环境音自始至终保持同一音量。
  • 1.5 结果:咖啡师的讲解有自然的句中停顿,另一笔订单开始时浓缩机音量随之升高,顾客的低声回应音量更小,且在空间上更靠近音频轴的远端。

对话密集的片段差距最为明显。如果你此前一直把 Grok 1.0 的视频通过独立音频模型处理配音,1.5 在原生层面已经填补了大部分差距。

变化二:10 秒变 15 秒

Grok Imagine 1.0 将片段时长上限设为 10 秒。1.5 将其提升至 15 秒,支持 1 到 15 秒之间的任意整数时长。多出的五秒听起来微不足道,但实际上决定了一个社交视频是否需要额外延伸一次,还是直接在首次生成时就能完成。

对常见使用场景来说,积分计算方式发生了实质性变化:

使用场景1.0(10 秒上限 + 延伸至 15 秒)1.5(原生 15 秒)
15 秒 TikTok,480p100(10s)+ 75(5s 延伸)= 175150
15 秒 TikTok,720p150(10s)+ 112.5(5s 延伸)= 262.5225
10 秒产品展示,720p150150(无变化)

对最常见的社交视频格式——15 秒片段——1.5 相较于 1.0 的"生成再延伸"方案,在 480p 下节省约 14%,在 720p 下同样节省约 14%,同时还能避免延伸连接点处偶尔出现的接缝瑕疵。

延伸模式在 1.5 中仍然可用,用于生成 15 秒以上的内容。但你只需要在真正需要更长时长时才为延伸部分付费,而不是因为基础生成被迫截断。

变化三:面部精度与角色一致性

这是最难量化、却在社区反馈中被最一致提及的变化。Grok Imagine 1.0 能在开头帧生成逼真的面孔,但随后可能逐渐变形——尤其在头部转动、光线变换或快速运动时,帧间特征出现漂移。通过参考模式引入的角色在较长片段中面部比例会发生偏移。

1.5 在架构层面解决了这一问题。Aurora 引擎的逐帧序列生成——每帧参考上一帧——现在能在旋转和光线变化过程中更稳定地保持面部关键点。社区反馈模式高度一致:此前会产生诡异变形的头部转动动作,现在在正常播放速度下能自然完成。

单一参考模式提示词的前后对比: "[@Image1] 走过一条弥漫着雾气的小巷向镜头靠近,面部清晰可见,在 8 秒处略向右转,头顶暖色路灯光。"

  • 1.0:主体在行走过程中保持了一致的身份,但右转时在转动中途出现了明显的下颌宽度偏移,在转动结束时骤然归位。
  • 1.5:同样的转动动作完整呈现,无矫正瑕疵。整个旋转过程中下颌和颧骨比例保持稳定。

对任何以角色面部为主要拍摄对象的场景来说,这一变化至关重要——如面对镜头讲话的内容、以角色为中心的叙事、有代言人出现的产品演示,以及任何使用参考模式在多个镜头中锚定一致身份的片段。

提示

角色一致性在延伸模式中会叠加增强。在 1.5 中,延伸片段能继承原始生成所建立的面部关键点稳定性。由于两段内容现在共享相同的面部几何基准,延伸衔接处的接缝比 1.0 更难察觉。

变化四:从指定帧延伸——将片段串联至短片长度

1.0 的延伸模式会在片段末尾追加帧,但控制方式有限:你只需提交一个片段,让模型继续生成。1.5 的"从指定帧延伸"功能新增了明确的帧选择——你可以选择要从哪一个具体的最终帧继续,模型将从那个确切的视觉状态恢复生成:相同的主体位置、相同的光线方向、相同的镜头轨迹、相同的大气条件。

当一次生成的开头和中间部分都很理想,但最后几帧偏离了你的意图时,这一差异就变得至关重要。在 1.0 中,不完美的最终帧意味着要么接受它作为延伸的起点,要么重新生成整个片段。在 1.5 中,你可以选择生成内容中较早的一帧——那个真正想要继续的、构图更干净的时刻——从那里延伸。

较长内容的实际工作流程:

  1. 生成一段 15 秒的开场片段,回顾并找出最佳结束帧。
  2. 使用"从指定帧延伸",选择该帧,生成接下来的 15 秒。
  3. 重复操作,直到达到所需时长。

以每段 15 秒计算,三段串联可产出 45 秒素材,且角色、光线和镜头状态在衔接处均保持一致。对于一个按秒计费(10 至 15 积分/秒)的模型而言,这已足够完成产品演示、短广告或叙事片开场序列。

说明

OmniArt 中的延伸模式可跨模型使用,不限于 Grok Imagine。你可以用其他模型生成开场内容,再用 Grok Imagine 1.5 的"从指定帧延伸"功能续接,将角色一致性的改进带入来自其他模型的素材。

+52 Elo 实际对应的内容

竞技场的分差可分解为上述四项变化,权重取决于各项在日常生产中的出现频率:

变化对 Elo 的影响在哪里感受到
音频自然度含对话或多层环境音的任何片段
原生 15 秒时长15 秒社交格式;依赖延伸的工作流程
面部一致性面对镜头讲话、参考模式角色工作、头部转动
从指定帧延伸多段制作、串联片段

竞技场专门测试图生视频——输入静态图,输出动态视频。在这一语境下,面部一致性和音频自然度是盲测投票者最容易察觉的两个质量维度,这解释了大部分 Elo 提升的来源。时长和"从指定帧延伸"对正在制作多镜头项目的资深用户更为重要,而非对观看 5 秒片段的盲测投票者。

是否应该重新生成 1.0 项目?

简短版本:如果项目以面部为主要拍摄对象,应该重新生成;如果你之前用"生成 + 延伸"方式制作 15 秒内容,也应该重新生成。其他情况则视具体项目而定。

立即重新生成,如果:

  • 你在 1.0 中生成了以面对镜头讲话或角色为核心的片段,并注意到片中出现了面部漂移。相同的参考模式输入在 1.5 中应该能产生明显更干净的效果。
  • 你把 15 秒片段拆成"10 秒 + 5 秒延伸"来制作,并遭遇了接缝瑕疵。1.5 的原生 15 秒生成消除了连接点。
  • 音频是唯一还不满意的地方,而视觉部分已经基本到位。1.5 的自然语调和分层环境音无需重新调整视觉提示词,就能解决最常见的音频问题。

不值得重新生成,如果:

  • 片段仅有动态画面,没有角色或对话——720p 的视觉质量上限没有变化,单段输出的延伸改进也微乎其微。
  • 你大量使用了修改模式——修改模式仍然会将所有超过 854×480 的输入降采样至 480p 再处理,1.5 中该行为未变。
  • 原始片段是时长较短(8 秒以内)的无角色氛围空镜。环境音改进确实存在,但按当前积分定价来看,重新生成的回报可能不够高。

警告

修改模式的 480p 降采样上限在 1.5 中未变。如果需要在不损失分辨率的情况下编辑 720p 片段,请在最终 720p 生成之前完成修改步骤,而非之后。

在 OmniArt 上开始使用

Grok Imagine 1.5 已在 OmniArt 视频工作区上线,可与 V6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0 和 Seedance 2.0 并排使用。无需单独订阅 xAI——同一个 OmniArt 积分余额覆盖所有模型。

校准 1.5 的最快方式是运行一个你在 1.0 中已经熟悉的提示词。相同输入,并排输出,面部和音频的改进立即可见。从这里开始,再决定哪些 1.0 项目值得重新生成。

关于六种模式的完整说明、积分计算和参考模式提示词写法,请参见 Grok Imagine 指南。关于 Grok Imagine 的图生视频排名在 2026 年整体横向对比中的位置,请参见最佳图生视频模型榜单

准备好创作了吗?

开始用 AI 生成精彩内容

免费开始