guide模型与洞察10 min read
Journal · 模型与洞察

Grok Imagine 教程:2026 年 xAI 视频模型创作者指南

Grok Imagine 实战指南:六种生成模式、提示词写法、真实成本测算,以及在 PixVerse V6 与 Sora 2 之间如何选择 xAI 这套 AI 视频模型。

OmniArt 团队·
Grok Imagine 教程:2026 年 xAI 视频模型创作者指南

Grok Imagine 是 xAI 的视频与音频生成模型,于 2026 年 1 月发布,可以在 OmniArt 上直接使用,无需另外订阅 xAI。它和 Grok 聊天机器人是两个完全不同的产品 —— 它们除了名字之外没有任何关系。本指南涵盖 Grok Imagine 的设计目标、六种值得关注的生成模式、贴合每种模式的提示词写法,以及真实项目在积分上的实际花费测算。

Grok Imagine 是什么

Grok Imagine 生成最高 720p 的视频,自带原生音频,单条片段时长 1–15 秒。它的真正卖点不是分辨率 —— 在 720p 上它有意不与 Sora 2 或 PixVerse V6 在画面保真度上正面硬碰。它的真正卖点是围绕模型构建的工作流面:六种生成模式共享同一套权重,让你在不离开模型的前提下完成生成、续接、改风和修改。

规格数值
最高分辨率720p(需要 1080p 及以上请用 PixVerse V6)
最长时长每次生成 15 秒
画面比例16:9、4:3、1:1、9:16、3:4、3:2、2:3
音频原生,与视频同步生成
成本(480p)每秒 10 积分
成本(720p)每秒 15 积分

值得了解的六种模式

每一种模式都对应一种告诉模型"输入是什么类型"的方式。选对模式,就完成了大部分提示词工程的工作。

Text-to-Video

默认模式。写一条提示词,得到一段片段。适合概念探索、情绪板和尚无参考图的社媒草稿。成本根据分辨率为每秒 10–15 积分。

Image-to-Video

让一张静态图动起来,同时保留输入构图。第一帧锁定为你提供的图片。适合用来动画化插画、产品摄影以及不能改变源帧的设计稿。

Reference Mode —— 真正的差异化

Reference 模式接受 1–7 张图作为视觉锚点,但不会锁定第一帧。你用 @Image1@Image2@Image3 给图片打标签,并在提示词里引用它们。这是大多数其他视频模型不具备的能力 —— 大部分要么锁定首帧(image-to-video),要么完全不接受参考图(text-to-video)。Reference 模式正好处于两者之间,是跨多个镜头保持角色一致性最干净的路径。

成本在 480p 下为每秒 15 积分,720p 下为 22.5 积分。

Extend Mode

在已有片段后追加 2–10 秒。输入是一段 2 至 15 秒之间的 MP4。输出是一段连续的完整片段;只对追加的部分计费。一个跨模型的妙用:Extend 模式可以作用于 OmniArt 视频工作区里 任何模型 生成的视频,不仅限于 Grok。

Modify Mode

在不重新生成的前提下编辑已有片段 —— 背景替换、灯光改动、对特定物体的颜色调整、天气效果等。输入限制为 8 秒以内,并自动缩放到 854×480,这意味着高分辨率源素材在这一来一回里会损失细节。请只在你本来就用 480p 生成的片段上使用 Modify。

Editing Suite —— Restyle、Object Manipulation、Sketches to Life

一组生成后处理操作的集合。Restyle 应用艺术风格(赛博朋克、动漫、复古、折纸、水彩、马赛克)。Object Manipulation 用来添加、移除或替换元素。Sketches to Life 让线稿动起来。Add Performance 把角色动画嫁接到静态人物上。适合从同一段源片段衍生出多个变体。

尊重模型的提示词写法

四个习惯比把提示词写得更长更能快速提升质量。

使用电影化语言

Grok Imagine 内置了六种相机预设:Zoom In、Zoom Out、Dolly Out、Tilt Up、Pan Right、Timelapse。当提示词里使用电影摄影术语时,它们会被更精准地激活。

较弱较强
"A city street at night with neon signs and people walking""Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing"

显式给参考图打标签

当提示词写得太笼统时,Reference 模式表现会下降。给每一张参考图绑定一个角色定位。

"@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel."

把动作前置

生成是按时间顺序推进的。如果一段 5 秒片段的高潮被放到末尾,模型可能根本没演完。把动作往前挪。

较弱较强
"A quiet forest scene with birds, then suddenly a deer leaps across a stream""A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches"

用时间轴节拍 10–15 秒的长片段

对于较长片段,把节奏写进提示词里。

"Slow zoom into abandoned library (0–5s), dust particles catch light beams (5–10s), book falls from shelf (10–12s), pages flutter (12–15s)."

实际成本

三个真实场景的镜头,按 OmniArt 积分计价。

一支 15 秒的 TikTok 产品视频

步骤模式分辨率成本
初始生成Text-to-Video480p, 10s100
续接Extend480p, 5s75
总计(含一次修改)175–275

一组 3 镜头的品牌分镜

步骤模式分辨率成本
镜头 1,2 张参考图Reference, 8s720p180
镜头 2,相同参考图Reference, 8s720p180
镜头 3,相同参考图Reference, 6s720p135
修复镜头 2 的灯光Modify, 8s720p180
总计675

一次改风处理

步骤模式分辨率成本
改成动漫风Restyle, 8s480p120

何时该选别的模型

Grok Imagine 是短视频社媒、线稿动画化以及在 480p–720p 下做参考图驱动多镜头叙事的合适工具。在以下场景里它就不合适:

需求更优选择
1080p 或更高PixVerse V6、BACH、Veo 3
高级镜头控制(焦段、景深、色差)PixVerse V6
一次生成 16–20 秒片段Sora 2
制作级对白与音乐专门的音频模型 + 后期剪辑
在编辑过程中保留高分辨率源素材避免使用 Modify 模式

真正能落地的工作流模式

Grok Imagine 在 OmniArt 上的价值并不在于做一个独立生成器 —— 它是迭代层。两种模式回报最高。

模式 1 —— 在别处生成,在这里精修。 用 PixVerse V6 或 Sora 2 在更高分辨率下渲染主镜头,再用 Extend、Restyle 和 Modify 在 Grok 里以更低成本衍生变体和补充镜头。

模式 2 —— 用 Reference 模式锁角色。 当一个品牌活动需要同一个角色出现在五个镜头里,用一张锚点图放进 @Image1 锁住身份,然后在 Reference 模式下用同一组参考图生成每个镜头。比每个镜头都重抽 Sora 2 便宜得多。

Warning

Modify 模式会把任何高于 854×480 的输入自动降采样到 480p 再处理。如果你需要在不损失分辨率的前提下编辑一段 1080p 片段,请改在别处做编辑,或者把编辑放在升采样步骤之前。

在 OmniArt 上开始

Grok Imagine 已在 OmniArt 视频工作区上线,与 PixVerse V6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0 和 Seedance 2.0 同场可用。共用同一份积分余额、同一套参考图上传方式、同一套提示词语法。先从 Text-to-Video 入门熟悉相机预设,等你有了要锁定的角色或产品,再升级到 Reference 模式。

把这份指南和 BACH 摄影师拆解 搭配阅读,可以做更高保真的叙事工作;如果你正在为某个具体镜头在多个模型之间挑选,也可以参考 最佳图生视频模型短名单

Start creating

准备开始创作?

使用 AI 开始生成精彩内容