Grok Imagine:xAI動画モデルクリエイターガイド(2026)
Grok Imagine実践ガイド——6つの生成モード、プロンプトパターン、実コスト計算、2026年にV6やSora 2より選ぶタイミング。

Grok ImagineはxAIの動画・オーディオ生成モデルで、2026年1月にローンチ、別途xAIサブスクなしでOmniArtから利用できます。Grokチャットボットとは別製品——名前を共有するだけです。本ガイドはGrok Imagineの用途、重要な6生成モード、各モードを尊重するプロンプトパターン、実プロジェクトのクレジットコスト計算をカバーします。
Grok Imagineとは
Grok Imagineは最大720p、ネイティブオーディオ付き1〜15秒クリップを生成。見出しの trick は解像度ではありません——720pでSora 2やV6と生の忠実度で争う設計ではない。見出しの trick はモデル周辺のワークフロー面:1ウェイトセットを共有する6生成モードで、モデルを離れず生成・延長・リスタイル・修正。
| 仕様 | 値 |
|---|---|
| 最大解像度 | 720p(1080p+はV6) |
| 最大尺 | 1生成15秒 |
| アスペクト比 | 16:9、4:3、1:1、9:16、3:4、3:2、2:3 |
| オーディオ | ネイティブ、動画と並行生成 |
| コスト(480p) | 秒10クレジット |
| コスト(720p) | 秒15クレジット |
知っておくべき6モード
各モードはモデルが扱う入力種別を伝える別の方法。正しいモード選択がプロンプトエンジニアリングの大部分。
Text-to-Video
デフォルト。プロンプトを書いてクリップ取得。参照画像がまだないコンセプト探索、ムードボード、SNSドラフト向け。480p/720pで秒10〜15クレジット。
Image-to-Video
入力構図を保持しながら静止画をアニメーション。最初のフレームは画像にロック。ソースフレームが交渉不可のイラスト、プロダクト写真、デザインモックアップ向け。
Reference Mode — 差別化要素
Reference Modeは最初のフレームをロックせず1〜7画像を視覚アンカーとして受け付け。@Image1、@Image2、@Image3でタグしプロンプトで参照。多くの他動画モデルにない——多くは最初のフレームをロック(image-to-video)か参照なし(text-to-video)。Reference Modeはその間に sit し、複数ショット間キャラクター一貫性への最もクリーンなパス。
480pで秒15クレジット、720pで22.5。
Extend Mode
既存クリップに2〜10秒を追加。入力は2〜15秒のMP4。出力は1本の連続クリップ;課金は追加部分のみ。クロスモデル trick:Extend ModeはGrok以外のOmniArt動画ワークスペース内任意モデル生成動画でも動作。
Modify Mode
再生成せず既存クリップを編集——背景差替、照明変更、特定オブジェクトの色 shift、天候効果。入力8秒上限、854×480に自動スケール——高解像度ソースは往復で詳細 loss。480pで生成したクリップにModifyを使う。
Editing Suite — Restyle、Object Manipulation、Sketches to Life
生成後操作の grab bag。RestyleはCyberpunk、Anime、Retro、Origami、Watercolor、Mosaic等。Object Manipulationは要素追加・削除・差替。Sketches to Lifeは線画アニメーション。Add Performanceは静止人物にキャラアニメーション graft。1ソースクリップから複数バリエーション向け。
モデルを尊重するプロンプト
4習慣が長いプロンプトより速く品質を上げる。
シネマティック言語を使う
Grok Imagineには6組み込みカメラプリセット:Zoom In、Zoom Out、Dolly Out、Tilt Up、Pan Right、Timelapse。シネマトグラフィ用語でより precise に活性化。
| 弱い | 強い |
|---|---|
| 「ネオン看板と歩く人の夜の街」 | 「雨で光る東京路地をドリー前進、水たまりにネオン反射、浅い被写界深度、傘の人物が画面右に入る、シネマティック2.39:1フレーミング」 |
参照を明示的にタグ
Reference Modeはプロンプトが generic だと degrade。各参照を role に bind。
「@Image1(赤スポーツカー)が @Image3(夕焼け空)を背景に山道をドリフト、@Image2(ドライバーキャラ)がハンドルを握る。」
アクションを前置
生成は尺を通じて sequential。5秒クリップ末尾に climax があると finish しない可能性。アクションを前へ。
| 弱い | 強い |
|---|---|
| 「静かな森、鳥、突然鹿が小川を跳ぶ」 | 「黄金時間の光で鹿が森の小川を跳ぶ、弧をトラッキング、近くの枝から鳥が散る」 |
10〜15秒クリップはタイムラインで pace
長いクリップは timing をプロンプトに書く。
「放棄図書館へスローズーム(0〜5s)、光線に塵(5〜10s)、本が棚から落ちる(10〜12s)、ページが flutter(12〜15s)。」
実際のコスト
OmniArtクレジットでの3実シナリオ。
15秒TikTokプロダクト動画
| ステップ | モード | 解像度 | コスト |
|---|---|---|---|
| 初回生成 | Text-to-Video | 480p、10s | 100 |
| Extend | Extend | 480p、5s | 75 |
| 合計(1リビジョン) | 175〜275 |
3ショットブランドストーリーボード
| ステップ | モード | 解像度 | コスト |
|---|---|---|---|
| ショット1、参照2 | Reference、8s | 720p | 180 |
| ショット2、同参照 | Reference、8s | 720p | 180 |
| ショット3、同参照 | Reference、6s | 720p | 135 |
| ショット2照明修正 | Modify、8s | 720p | 180 |
| 合計 | 675 |
リスタイルパス
| ステップ | モード | 解像度 | コスト |
|---|---|---|---|
| AnimeへRestyle | Restyle、8s | 480p | 120 |
別モデルを選ぶとき
Grok Imagineは480p〜720pのショートSNS、スケッチ実写、参照駆動マルチショット向け正しいツール。以下では wrong:
| 必要 | より良い選択 |
|---|---|
| 1080p以上 | V6、BACH、Veo 3 |
| 高度レンズ制御(焦点距離、DOF、収差) | V6 |
| 1パス16〜20秒 | Sora 2 |
| 制作級対話と音楽 | 専用オーディオモデル+編集 |
| 編集での高解像度ソース保持 | Modify Mode回避 |
出荷するワークフローパターン
OmniArtでの payoff は standalone ジェネレーターではなくイテレーション層。2パターンが most。
パターン1 — 他で生成、ここで refine。 V6やSora 2で高解像度マスター、Extend/Restyle/ModifyでGrok低コストバリエーション。
パターン2 — キャラクターロックにReference Mode。 5ショット同キャラのブランドキャンペーンは@Image1に1アンカー、各ショットReference Mode同参照。ショットごとSora 2再 roll より安い。
Warning
Modify Modeは854×480超入力を処理前480pに自動ダウンスケール。1080pクリップを解像度 loss なく編集するなら他で編集するか、アップスケール前に編集。
OmniArtでの始め方
Grok ImagineはOmniArt動画ワークスペースでV6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0、Seedance 2.0と並存。同クレジット、同参照アップロード、同プロンプト文法。Text-to-Videoでカメラプリセットを学び、キャラ・プロダクトを lock したらReference Modeへ。
BACHシネマトグラファー解説で高忠実度ナラティブ、2026画像から動画ショートリストで特定ショットのモデル選択。