industryモデルとインサイト18分で読めます

Grok Imagine 1.5 vs 1.0：+52 Eloが実際に変えたこと

xAIのGrok Imagine 1.5が1.0比で+52 Eloを達成し、Image-to-Video Arena首位に躍進。ネイティブ音声、15秒クリップ、顔の一貫性、フレーム選択延長という4つの変化をOmniArtでの前後比較とともに徹底解説します。

OmniArt チーム2026年6月12日

Grok Imagine 1.5がプレビューアップデートとして登場し、大きな成果を収めました。1.0比で+52 Eloを記録し、ブラインドユーザーテストでSeedance 2.0、HappyHorse 1.0、Google Veoを抑えてImage-to-Video Arena首位に立ったのです。成熟したリーダーボードで52ポイント上昇することは明確なシグナルです。1.5と1.0の直接対決で、1.5のブラインドテスト勝率が約57%に達することを意味します。

数字は見出しです。実際の制作作業で重要なのは、どの具体的な変化がその結果をもたらしたかです。OmniArtのビデオワークスペースで1.5と1.0を並走させてきた経験から、この改善は制作者が即座に実感できる4つの変化に明確に集約されます。微妙な差異はひとつもありません。

Grok Imagineが初めてであれば、まず基礎ガイドをご覧ください。6つの生成モード、プロンプトのパターン、クレジット計算方法を詳しく解説しています。この記事は1.0でいくつかのクリップを制作した経験があり、何を作り直す価値があるかを知りたい方を想定しています。

スペック早見表：1.0 vs 1.5

スペック	Grok Imagine 1.0	Grok Imagine 1.5
最大解像度	720p	720p
最大尺	10秒	15秒
アスペクト比	16:9、4:3、1:1、9:16、3:4、3:2、2:3	16:9、4:3、1:1、9:16、3:4、3:2、2:3
音声	ネイティブ統合生成	ネイティブ統合生成 — 改善済み
顔の一貫性	ベースライン水準	顕著に改善
フレーム選択延長	末尾フレームへの継続	明示的なフレーム選択、連続性向上
画像生成ベース	FLUX.1（Black Forest Labs）	FLUX.1（Black Forest Labs）
コスト（480p）	10クレジット/秒	10クレジット/秒
コスト（720p）	15クレジット/秒	15クレジット/秒
アリーナ順位	1位より数段下	Image-to-Video Arena 1位

解像度上限とクレジット価格は変わりません。改善はその制約の中でモデルが何を実現するかにあります。

変化1：ネイティブ音声が単一パスのように聞こえる

Grok Imagineは1.0から音声を生成してきました。対話、リップシンク、効果音、環境音楽のすべてが、別の音声モデルを後から組み合わせることなく、単一の推論パスでビデオトークンから構築されます。実際のところ、1.0の音声には2つの一貫した問題がありました。機械的な対話タイミング（単語が等間隔で現れ、自然な呼吸ポイントではなく文法的な区切りで停止する）と、単調な環境音（カフェシーンで空間的な変化のない単一の背景音が続く）です。

1.5はどちらも解決しました。同じ単一パスアーキテクチャで、文レベルのイントネーションが生成されるようになりました。短くて力強い発話は自然な下降調で締まり、長い説明的な発話は解消前に中間での明確な上昇が聞こえます。環境音にも層が生まれました。街の場面で遠くから車の音、近くから足音、背後でくぐもったドアの音が聞こえます。これらは後処理ではなく、Auroraエンジンが動作に使うのと同じフレーム単位の逐次ロジックで生成されています。各フレームが次に影響を与え、音響環境が視覚的な軌跡に沿って展開します。

1.0プロンプト：「バリスタがカウンター越しにお客様に抽出工程を説明するカフェ、温かい照明。」

1.0の結果：対話が一定のリズムの短い単位で届き、エスプレッソマシンの背景音が終始同じ音量で続く。
1.5の結果：バリスタの説明に自然な文中の間があり、別の注文が入るとエスプレッソマシンの音が高まり、お客様のさりげない相づちはより静かで音声軸から空間的に遠いところに位置づけられる。

対話の多いクリップで差が最も明確です。Grok 1.0の動画を声の仕上げのために別の音声モデルに通していたなら、1.5がネイティブにその差の大部分を埋めてくれます。

変化2：10秒が15秒に

Grok Imagine 1.0はクリップを10秒に制限していました。1.5はこれを15秒に引き上げ、1〜15秒の任意の整数尺に対応します。5秒の追加は些細に聞こえるかもしれません。実際には、ソーシャルクリップを1回の延長で仕上げる必要があるかどうか、最初の生成で完成できるかどうかの違いです。

標準的なユースケースではクレジット計算が大きく変わります。

ユースケース	1.0（最大10秒 + 15秒まで延長）	1.5（ネイティブ15秒）
15秒TikTok、480p	100（10秒）+ 75（5秒延長）= 175	150
15秒TikTok、720p	150（10秒）+ 112.5（5秒延長）= 262.5	225
10秒商品ショット、720p	150	150（変動なし）

最も一般的なソーシャルフォーマット、つまり15秒クリップでは、1.5は1.0の生成後延長アプローチと比べて480pで約14%、720pで約14%安くなります。延長結合点で時折現れるつなぎ目のアーティファクトも回避できます。

延長モード自体は1.5でも15秒を超える映像に引き続き使用できます。ただし今は、基本生成が強制カットを生み出したからではなく、実際に追加の尺が必要な映像にのみ延長コストが発生します。

変化3：顔の精度とキャラクターの一貫性

これは最も数値化しにくく、コミュニティのフィードバックで最も一貫して指摘された変化です。Grok Imagine 1.0は冒頭フレームで説得力のある顔を生成できましたが、その後維持できませんでした。特に頭の回転、照明の変化、急速な動作時にフレーム間で顔の特徴がずれました。レファレンスモードで導入したキャラクターは長いクリップで顔の比率が変化しました。

1.5はこれをアーキテクチャレベルで解決しました。Auroraエンジンの逐次フレーム生成（各フレームが前フレームを参照する）が、回転や照明変化を通じて顔のランドマークをより安定して保持するようになりました。コミュニティのフィードバックパターンは一貫しています。以前は不気味な変形を引き起こしていた頭の回転が、通常の再生速度でなめらかに完了するようになったのです。

単一レファレンスモードプロンプトの前後比較：「[@Image1]が霧の立ち込める路地を通って카메라に向かって歩き、顔がはっきり見え、8秒で少し右に向き、上から温かい街灯が照らす。」

1.0：歩行中は一貫したアイデンティティを維持したが、右向き時に回転途中のフレームで顎の幅の著しいシフトが発生し、回転完了時に急激に戻る。
1.5：同じ回転が補正アーティファクトなく完了。回転全体を通じて顎と頬骨の比率が維持される。

キャラクターの顔が主要な被写体となるあらゆるユースケースで、この変化が最も重要です。カメラに向かって話すコンテンツ、キャラクター主導のナラティブ、スポークスパーソンが登場する商品デモ、複数のショットにわたって一貫したアイデンティティを固定するためにレファレンスモードを使用するクリップが該当します。

ヒント

キャラクターの一貫性は延長モードで累積します。1.5では、延長されたクリップが元の生成で確立された顔のランドマーク安定性を引き継ぎます。両セグメントが同じ顔のジオメトリ基準線を共有するようになったため、延長の結合部のつなぎ目は1.0より目立ちにくくなっています。

変化4：フレーム選択延長 — クリップを短編映画の尺に連結する

1.0の延長モードはクリップの末尾にフレームを追加していましたが、制御方法は限られていました。クリップをモデルに渡して続けるよう依頼するだけでした。1.5のフレーム選択延長は明示的なフレーム選択を追加します。続けたい特定の最終フレームを選ぶと、モデルはその正確な視覚的状態から再開します。同じ被写体の位置、同じ照明方向、同じカメラの軌跡、同じ大気条件が保持されます。

この違いは、生成物の冒頭と中盤は良いのに最終フレームが意図からずれていた場合に特に重要です。1.0では不完全な最終フレームを延長のシードとして受け入れるか、クリップ全体を作り直すかの二択でした。1.5では、生成物の中から以前のフレーム、つまり実際に続けたかったより清潔な構図の瞬間を選んで、そこから延長できます。

より長い制作のための実用的なワークフロー：

15秒のオープニングセグメントを生成します。確認し、最適な最終フレームを特定します。
フレーム選択延長を使用してそのフレームを選択し、次の15秒を生成します。
必要な尺に達するまで繰り返します。

15秒×3セグメントの連結で、キャラクター、照明、カメラの状態が結合部全体で保持された45秒の映像が完成します。秒あたり10〜15クレジットを請求するモデルから、商品デモ、短い広告、あるいはナラティブのイントロシーケンスに十分な尺が得られます。

メモ

OmniArtの延長モードはGrok Imagineだけでなく、複数のモデルにわたって機能します。別のモデルでオープニングを生成し、Grok Imagine 1.5のフレーム選択延長で続けることで、他のモデルから生まれた映像にもキャラクター一貫性の改善を適用できます。

+52 Eloが実際に示すもの

アリーナの差は、日常の制作における出現頻度で重み付けされたこの4つの変化に分解されます。

変化	Eloへの影響	実感できる場面
音声の自然さ	高	対話または多層の環境音があるあらゆるクリップ
ネイティブ15秒尺	中	15秒ソーシャルフォーマット、延長依存のワークフロー
顔の一貫性	高	カメラに向かって話すコンテンツ、レファレンスモードのキャラクター制作、頭の回転
フレーム選択延長	中	複数セグメントの制作、連結クリップ

アリーナは具体的に画像からの動画変換をテストします。入力した静止画がアニメーション化されます。その文脈では、顔の一貫性と音声の自然さがブラインド投票者の最も気づきやすい2つの品質であり、Eloの上昇の大部分がどこから来たかを説明しています。尺とフレーム選択延長は、5秒クリップを見るブラインドテスト投票者よりも、マルチショットプロジェクトを構築している上級ユーザーにとってより重要です。

1.0のプロジェクトを作り直すべきか

簡単にまとめると、顔が主要な被写体だったプロジェクトと15秒に到達するために生成後延長パターンで制作したものは、作り直す価値があります。それ以外はプロジェクト次第です。

今すぐ作り直すべきケース：

1.0でカメラに向かって話すコンテンツやキャラクター中心のクリップを制作し、クリップ途中で顔がずれるのに気づいた。同じレファレンスモードの入力が1.5で目に見えてクリーンな結果を出すはずです。
15秒クリップを10秒+5秒延長で制作し、つなぎ目のアーティファクトが発生した。1.5のネイティブ15秒生成が結合点をなくします。
音声が最後の課題で、映像面はほぼ完成に近かった。1.5の自然なイントネーションと多層の環境音が、映像プロンプトを作り直すことなく最も一般的な音声の問題を解決します。

作り直す価値がないケース：

クリップがキャラクターや対話のない動作のみの映像。720pの映像品質の上限は変わっておらず、単一セグメント出力の延長動作の改善も限定的です。
修正モードを多用している。修正モードは依然として854×480を超えるすべての入力を処理前に480pにダウンスケールし、この動作は1.5でも変わっていません。
元の映像がキャラクターのない短い（8秒未満の）雰囲気のあるBロールショット。環境音の改善は確かにありますが、現在のクレジット価格での再生成を正当化するには不十分かもしれません。

警告

修正モードの480pダウンスケール上限は1.5でも変わっていません。解像度を損なわずに720pクリップを編集する必要がある場合は、最終的な720p生成の後ではなく前に修正パスを行ってください。

OmniArtで始める

Grok Imagine 1.5はOmniArtのビデオワークスペースでV6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0、Seedance 2.0と並んで利用できます。xAIへの別途サブスクリプションは不要で、同じOmniArtのクレジット残高ですべてのモデルを利用できます。

1.5を最速で把握する方法は、1.0でもう知っているプロンプトを実行することです。同じ入力、並んだ出力、基準線に対する顔と音声の改善がすぐに目に見えます。そこから始めて、どの1.0プロジェクトが本当に作り直す価値があるかを判断してください。

6つのモードの完全な説明、クレジット計算、レファレンスモードのプロンプトパターンについては、Grok Imagineガイドをご覧ください。2026年の画像から動画への変換の全体的な状況の中でGrok Imagineの順位がどこに位置するかについては、最良の画像から動画へのAIモデル一覧で現在の順位を確認してください。

制作を始めますか？

AIで魅力的なコンテンツを生成しましょう

無料で始める