guideチュートリアルと使い方ガイド18分で読めます

本当に効果的な Grok Imagine プロンプト 8 選

FLUX.1 の自然言語スタイルに基づき「被写体＋動作＋カメラ＋スタイル＋音声」構造で設計した、そのまま使える Grok Imagine 1.5 の画像・動画プロンプト 8 つ。各プロンプトの生成結果とその効果の理由を OmniArt の視点で詳しく解説します。

OmniArt チーム2026年6月9日

Grok Imagine 1.5 は画像生成の基盤モデルを Black Forest Labs の FLUX.1 に更新しました。この変化はプロンプトの書き方に具体的な影響をもたらします。このモデルは自然言語の描写を、カメラマンが撮影ブリーフを読み解くように処理します。以前のモデルがキーワードリストを解析していたのとは根本的に異なります。以下の 8 つのプロンプトはそのままコピーして使えます。OmniArt の Grok Imagine ワークスペースに貼り付け、詳細を調整して生成してください。各項目には正確なプロンプトテキスト、生成結果、そしてその構造が機能する理由についての制作ノートが含まれています。

OmniArt の全モデルに共通するプロンプト理論については、より良いプロンプトの書き方をご覧ください。Grok Imagine の 6 つの生成モードとコスト計算の詳細は、Grok Imagine クリエイターズガイドをご確認ください。この記事は FLUX.1 リリースである Grok Imagine 1.5 と、このモデルが応答しやすいプロンプト技法に特化しています。

Grok Imagine 1.5 がプロンプト作成に与えた変化

FLUX.1 ベースモデルは従来のテキスト-画像アーキテクチャとは異なる方法で学習されています。連続した文章を上手く解析し、純粋なキーワードの羅列には反応が弱い傾向があります。品質を最も安定して向上させる 5 つの習慣を紹介します。

キーワードの羅列より自然言語。 完全な文章は、カンマで区切られた形容詞の列挙より優れた結果をもたらします。「コンビニの看板の光が漂うブルーアワーの街」は「街、夜、ネオン、映画的、4K」より効果的です。
曖昧な形容詞より具体的な参照。 「富士フイルム XT4、23mm f/2 で撮影」は「高品質な写真」よりも多くの情報をモデルに伝えます。具体的な機材名やフィルムの種類は潜在空間で実際の重みを持ちます。
「カラフルな」より正確な色の表現。 「エレクトリックブルーとホットピンク」は意図的なパレットを生み出します。「カラフルな」は平均化されたノイズを生み出します。
「ゴールデンアワー」より正確な時刻。 「10 月下旬の午後 5 時 45 分、太陽が地平線から 6°」は光の正確な角度と温かみをモデルに伝えます。「ゴールデンアワー」は季節や緯度によって異なる解釈がされます。
動画の構造：被写体＋動作＋カメラ＋スタイル＋音声。 最初の 20〜30 語で主要な被写体と動作を前面に出してください。複数のスタイルを混ぜるより、単一のスタイルに集中する方が優れています。段階的に反復しましょう。結果が固まるまで、生成ごとに 1 つの変数を変え、その後さらに発展させてください。

動画に転用できる映像的語彙の全体的な解説は、映画的 AI 動画プロンプトガイドでレンズ選択、動機のあるカメラムーブ、照明の言語を詳しく紹介しています。

8 つのプロンプト

1. 映画的な製品撮影（画像）

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

生成結果： AI 出力ではなくプロのプロダクト写真として読み取れる、クリーンで芸術的に演出された静物写真。

効果的な理由： 富士フイルム XT4 の参照は、色科学とセンサーのレンダリングを特定の実世界のルックに固定します。光の角度が数値で指定されており、モデルがデフォルトの拡散した上方照明を使うのを防ぎます。パレットを 2 色（温かいアンバーのハイライト、冷たいブルーグレーのシャドウ）に限定することで、モデルが第三の競合する色調を導入するのを防ぎます。

2. 音声付きの人物クローズアップ（動画）

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

生成結果： Grok Imagine 1.5 のネイティブ音声を備えた人物シーン。モデルが単一の推論パスでセリフ、リップシンク、環境音を同時に生成します。

効果的な理由： セリフは 8 秒以内でリップシンクが綺麗に行えるほど短くなっています。2 つの別々の名前の付いたネオン光源（上方にピンク、右からシアン）がモデルに明確なライトマップを提供し、一般的な「ネオンシティ」の平均化を防ぎます。「映画的なドラマではない」は、肯定的な形容詞よりも雰囲気をより正確に誘導する否定的な制約です。

ヒント

10 秒未満のクリップでは、発話するセリフを短い文 1〜2 つに抑えてください。台詞が長すぎると使用可能な尺を超え、モデルが早口になったり音声を途中で切ったりする場合があります。

3. 雰囲気ある環境 — アンビエントクリップ（動画）

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

生成結果： 背景映像、トランジション素材、またはオープニングシーンとして理想的な、雰囲気を作り出すアンビエントクリップ。

効果的な理由： 「11 月初旬の午前 7 時」は「霧のかかった朝」より正確です。プッシュは「感知できないほど」で「呼吸の上を漂うように」と表現されており、「ゆっくりとした前進」よりもペースを正確に伝えます。音楽なしと指定することで、モデルが BGM を使わず、実際のフィールドレコーディングスタイルのアンビエントサウンドを生成します。

4. スピード感のある縦型ソーシャル動画 — 製品公開（動画）

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

生成結果： TikTok、Reels、Shorts 向けに作られた、インパクトのある 9:16 ソーシャルクリップ。ネイティブ音声付きの素早いカット製品公開です。

効果的な理由： プロンプトの冒頭で 9:16 を指定することで、他の何よりも先にアスペクト比が設定されます。タイムラインが明示的に記述されており（「0–2s / 2–8s」）、2 つのビートが 1 つの動きに混ざることなく、モデルが正しくペースを刻むのを助けます。特定の音声イベント（衝撃音、シンセサイザートーン）を命名することで、「音響効果を追加」より意図的なサウンドデザインが生まれます。

警告

Grok Imagine 1.5 のクリップは最大 15 秒です。ソーシャルコンテンツはクリップを最大 8〜10 秒に抑えてください。その範囲でモデルのモーションが最も綺麗になり、ソーシャルプラットフォームの注意持続時間も短いです。720p では、8 秒クリップは OmniArt で 120 クレジットかかります。

5. スタイライズされたイラスト（画像）

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

生成結果： 一般的なデジタルアートではなく、実際の印刷工程のように見えるグラフィックな、限られた色のイラスト。

効果的な理由： 印刷技法（リソグラフ）とその具体的な制約（2 色のインク、フラットな図形、グラデーションなし、インクのズレ）を命名することで、モデルに完全な技術的ブリーフが提供されます。「インクのズレ」は出力を実世界の美学に固定する物理的工程の細部です。FLUX.1 においてフィルムストックを命名することと同等の効果を持ちます。これがないと、モデルはグラデーションを追加したり色を混ぜたりする傾向があります。

6. ダイナミックなカメラムーブ — ドローンのプルバック（動画）

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

生成結果： 単一の動機あるカメラムーブを中心に構成された、モデルの最大クリップ長 15 秒の全体公開ショット。

効果的な理由： このプロンプトは 1 つの連続した動きに全 15 秒を使います。これはその長さで綺麗な結果を得るための最も確実な方法です。プルバックは一定の高さ（傾きなし）に制限されており、モデルが第二のカメラ軸を即興で追加してぎこちない動きを作るのを防ぎます。「LOG スタイルの色調、わずかなレンズビネット」は特定の機材名を必要とせずに実際のカメラのルックを表現します。

7. スタイライズされたファッション — フィルムストックポートレート（画像）

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

生成結果： 正確なヴィンテージカラーレンダリングを持つフィルム写真のポートレート。本物のグレイン、ハレーション、期限切れフィルム特有の色ズレが表現されます。

効果的な理由： 「期限切れのコダックポートラ 400」は画像の潜在空間における最も強力な単一フレーズのスタイル参照の一つで、完全な色調の期待を持ちます。色ズレ（「グリーンがイエローオリーブ方向にわずかにシフト」）を指定することで、一般的なヴィンテージグレインを防ぎ、期限切れフィルムに関連する正確なパレットの歪みを誘導します。タイトなトリミングと特定のアスペクト比（4:5）は、実際の写真プリントのように見えるポートレートを生み出します。

8. 没入感のある環境 — 雨の情景（動画）

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

生成結果： オープニングショットや独立した雰囲気作品として力強い、没入感のある一人称視点の環境クリップ。

効果的な理由： 「6 月下旬の 22:00」は正確な季節、温度感（蒸し暑い夏の雨）、暗さのレベルを示します。自転車の通行者は特定の瞬間の具体的なイベントとして設定されており（「クリップの中盤あたりで約 2 秒」）、複雑な人物の動作を要求せずにモデルに物語の基点を与えます。音声は 3 つの別々のレイヤー（ガラスへの雨音、タイヤの摩擦音、バイクのエンジン音）として提示され、単一の「都市の雨音」という指示よりも丁寧なサウンドデザインを生み出す傾向があります。

OmniArt での実行方法

8 つのプロンプトすべては、OmniArt の制作ワークスペース内の Grok Imagine 1.5 で実行できます。別途 xAI のサブスクリプションは必要ありません。画像プロンプト（1、5、7）は画像ワークスペースに、動画プロンプト（2、3、4、6、8）は Grok Imagine の動画ワークスペースに入力してください。

OmniArt での実行に関する実用的なメモ:

反復作業は 480p から始めましょう。 480p では動画は 1 秒あたり 10 クレジットです。構造が正しくなったら、最終テイクのために 720p（1 秒あたり 15 クレジット）に上げてください。
延長モードで長さを伸ばす。 アンビエントクリップ（プロンプト 3）とドローンのプルバック（プロンプト 6）は、Grok Imagine の延長モードを使って最大 15 秒追加できます。同じモデルで、追加された部分のみが課金されます。
修正モードで細部を調整する。 結果の照明がほぼ正しいが一部の要素がずれている場合、修正モードを使えばクリップ全体を再生成せずにテキストで変更を記述できます。修正モードに渡す前にソースクリップを 480p に保ってください。このモードは入力を 854×480 に制限します。
複数ショット間でのキャラクターの一貫性： 同じキャラクターの複数ショットを生成する場合（プロンプト 2 のスタイル）、ヘッドショットを @Image1 として使用する参照モードを使い、各新しいプロンプトでキャラクターの説明を再記述してください。Grok Imagine 1.5 の参照モードは、ファインチューニングされたモデルに依存せず一貫性を保つ最も直接的な方法です。

6 つすべての Grok Imagine 生成モード、コストのシナリオ、別のモデルに切り替えるタイミングについての完全な解説は、完全版 Grok Imagine ガイドをご覧ください。あらゆる動画プロンプトに転用できる映像撮影の語彙については、映画的 AI 動画プロンプトガイドをこの記事と合わせてブックマークしておくことをお勧めします。

制作を始めますか？

AIで魅力的なコンテンツを生成しましょう

無料で始める