guideチュートリアルと使い方ガイド7分で読めます

Grok Imagine：xAI動画モデルクリエイターガイド（2026）

Grok Imagine実践ガイド——6つの生成モード、プロンプトパターン、実コスト計算、2026年にV6やSora 2より選ぶタイミング。

OmniArt チーム2026年5月5日

Grok ImagineはxAIの動画・オーディオ生成モデルで、2026年1月にローンチ、別途xAIサブスクなしでOmniArtから利用できます。Grokチャットボットとは別製品——名前を共有するだけです。本ガイドはGrok Imagineの用途、重要な6生成モード、各モードを尊重するプロンプトパターン、実プロジェクトのクレジットコスト計算をカバーします。

Grok Imagineとは

Grok Imagineは最大720p、ネイティブオーディオ付き1〜15秒クリップを生成。見出しの trick は解像度ではありません——720pでSora 2やV6と生の忠実度で争う設計ではない。見出しの trick はモデル周辺のワークフロー面：1ウェイトセットを共有する6生成モードで、モデルを離れず生成・延長・リスタイル・修正。

仕様	値
最大解像度	720p（1080p+はV6）
最大尺	1生成15秒
アスペクト比	16:9、4:3、1:1、9:16、3:4、3:2、2:3
オーディオ	ネイティブ、動画と並行生成
コスト（480p）	秒10クレジット
コスト（720p）	秒15クレジット

知っておくべき6モード

各モードはモデルが扱う入力種別を伝える別の方法。正しいモード選択がプロンプトエンジニアリングの大部分。

Text-to-Video

デフォルト。プロンプトを書いてクリップ取得。参照画像がまだないコンセプト探索、ムードボード、SNSドラフト向け。480p/720pで秒10〜15クレジット。

Image-to-Video

入力構図を保持しながら静止画をアニメーション。最初のフレームは画像にロック。ソースフレームが交渉不可のイラスト、プロダクト写真、デザインモックアップ向け。

Reference Mode — 差別化要素

Reference Modeは最初のフレームをロックせず1〜7画像を視覚アンカーとして受け付け。@Image1、@Image2、@Image3でタグしプロンプトで参照。多くの他動画モデルにない——多くは最初のフレームをロック（image-to-video）か参照なし（text-to-video）。Reference Modeはその間に sit し、複数ショット間キャラクター一貫性への最もクリーンなパス。

480pで秒15クレジット、720pで22.5。

Extend Mode

既存クリップに2〜10秒を追加。入力は2〜15秒のMP4。出力は1本の連続クリップ；課金は追加部分のみ。クロスモデル trick：Extend ModeはGrok以外のOmniArt動画ワークスペース内任意モデル生成動画でも動作。

Modify Mode

再生成せず既存クリップを編集——背景差替、照明変更、特定オブジェクトの色 shift、天候効果。入力8秒上限、854×480に自動スケール——高解像度ソースは往復で詳細 loss。480pで生成したクリップにModifyを使う。

Editing Suite — Restyle、Object Manipulation、Sketches to Life

生成後操作の grab bag。RestyleはCyberpunk、Anime、Retro、Origami、Watercolor、Mosaic等。Object Manipulationは要素追加・削除・差替。Sketches to Lifeは線画アニメーション。Add Performanceは静止人物にキャラアニメーション graft。1ソースクリップから複数バリエーション向け。

モデルを尊重するプロンプト

4習慣が長いプロンプトより速く品質を上げる。

シネマティック言語を使う

Grok Imagineには6組み込みカメラプリセット：Zoom In、Zoom Out、Dolly Out、Tilt Up、Pan Right、Timelapse。シネマトグラフィ用語でより precise に活性化。

弱い	強い
「ネオン看板と歩く人の夜の街」	「雨で光る東京路地をドリー前進、水たまりにネオン反射、浅い被写界深度、傘の人物が画面右に入る、シネマティック2.39:1フレーミング」

参照を明示的にタグ

Reference Modeはプロンプトが generic だと degrade。各参照を role に bind。

「@Image1（赤スポーツカー）が @Image3（夕焼け空）を背景に山道をドリフト、@Image2（ドライバーキャラ）がハンドルを握る。」

アクションを前置

生成は尺を通じて sequential。5秒クリップ末尾に climax があると finish しない可能性。アクションを前へ。

弱い	強い
「静かな森、鳥、突然鹿が小川を跳ぶ」	「黄金時間の光で鹿が森の小川を跳ぶ、弧をトラッキング、近くの枝から鳥が散る」

10〜15秒クリップはタイムラインで pace

長いクリップは timing をプロンプトに書く。

「放棄図書館へスローズーム（0〜5s）、光線に塵（5〜10s）、本が棚から落ちる（10〜12s）、ページが flutter（12〜15s）。」

実際のコスト

OmniArtクレジットでの3実シナリオ。

15秒TikTokプロダクト動画

ステップ	モード	解像度	コスト
初回生成	Text-to-Video	480p、10s	100
Extend	Extend	480p、5s	75
合計（1リビジョン）			175〜275

3ショットブランドストーリーボード

ステップ	モード	解像度	コスト
ショット1、参照2	Reference、8s	720p	180
ショット2、同参照	Reference、8s	720p	180
ショット3、同参照	Reference、6s	720p	135
ショット2照明修正	Modify、8s	720p	180
合計			675

リスタイルパス

ステップ	モード	解像度	コスト
AnimeへRestyle	Restyle、8s	480p	120

別モデルを選ぶとき

Grok Imagineは480p〜720pのショートSNS、スケッチ実写、参照駆動マルチショット向け正しいツール。以下では wrong：

必要	より良い選択
1080p以上	V6、BACH、Veo 3
高度レンズ制御（焦点距離、DOF、収差）	V6
1パス16〜20秒	Sora 2
制作級対話と音楽	専用オーディオモデル+編集
編集での高解像度ソース保持	Modify Mode回避

出荷するワークフローパターン

OmniArtでの payoff は standalone ジェネレーターではなくイテレーション層。2パターンが most。

パターン1 — 他で生成、ここで refine。 V6やSora 2で高解像度マスター、Extend/Restyle/ModifyでGrok低コストバリエーション。

パターン2 — キャラクターロックにReference Mode。 5ショット同キャラのブランドキャンペーンは@Image1に1アンカー、各ショットReference Mode同参照。ショットごとSora 2再 roll より安い。

警告

Modify Modeは854×480超入力を処理前480pに自動ダウンスケール。1080pクリップを解像度 loss なく編集するなら他で編集するか、アップスケール前に編集。

OmniArtでの始め方

Grok ImagineはOmniArt動画ワークスペースでV6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0、Seedance 2.0と並存。同クレジット、同参照アップロード、同プロンプト文法。Text-to-Videoでカメラプリセットを学び、キャラ・プロダクトを lock したらReference Modeへ。

BACHシネマトグラファー解説で高忠実度ナラティブ、2026画像から動画ショートリストで特定ショットのモデル選択。

制作を始めますか？

AIで魅力的なコンテンツを生成しましょう

無料で始める