HappyHorse 1.0 vs Seedance 2.0:Eloランキングが見落とす本当の差
サイレント動画でElo 1位のHappyHorse 1.0。音声ONの実践プロンプト3本でSeedance 2.0と比較。並列結果、7次元スコアカード、OmniArtクリエイター向けの選び方ガイド。

Artificial Analysisのリーダーボードは、サイレントのテキストから動画(text-to-video)で HappyHorse 1.0 を1位、Seedance 2.0 を2位に置いています。比較自体は簡単ですが、それだけでは物足りません。サイレントのランキングは、並べて見比べやすいものを優遇します。実際の制作ブリーフは、音声付きで、制約付きで、複数の要素が同時に動くことが前提です。
そうしたブリーフを3本——侍の決闘、ジャズのライブ、バンコクの夜市——の両モデルで回し、オーディオ同期を含む7つの次元で評価しました。Eloの差は縮まりませんでした。予想外の場所で、HappyHorse 有利に広がりました。以下に全文の所見と、OmniArtでどちらを選ぶかのシナリオ別ガイドをまとめます。
HappyHorse 1.0 vs Seedance 2.0:スペック早見表
| 項目 | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| 開発元 | Alibaba(ATH AI Innovation Unit) | ByteDance(Seed Research) |
| ローンチ | 2026年4月7日(アリーナ)/ 4月27日(API) | 2026年2月10日 |
| アーキテクチャ | 統合40層自己注意Transformer(約150億パラメータ) | Dual-Branch Diffusion Transformer(DB-DiT) |
| 最大解像度 | 1080p | 最大2K |
| 最大尺 | 5〜15秒 | 4〜15秒 |
| オーディオ | 映像・音声を共同生成、1パス | 映像・音声を共同生成、デュアルブランチ+クロスアテンション |
| リップシンク | 7言語(英語、中国語、広東語、日本語、韓国語、ドイツ語、フランス語) | 多言語、ミリ秒単位の同期 |
| 参照入力 | テキスト、画像 | テキスト、最大9画像、動画3本、オーディオ3本 |
| カメラ制御 | プロンプトベース | 監督レベル(カメラ、照明、影、演技) |
| Elo:T2V(音声なし) | 約1,357(#1) | 約1,269(#2) |
| Elo:T2V(音声あり) | 約1,210(#2) | 約1,220(#1または同率) |
| オープンソース | 発表済み。ウェイトは未だ独立検証なし | クローズドソース |
| API | fal.ai、Replicate、Alibaba Cloud | Dreamina、CapCut、BytePlus Ark、fal.ai |
サイレント動画でのElo差はおよそ88点——ブラインドテストでは HappyHorse の勝率が約58%に相当します。これが公開ベンチマークです。本当に問われるのは、音声・複雑さ・実制作に近い採点基準を踏まえても、その差が残るかどうかです。
HappyHorse 1.0 と Seedance 2.0 の実体
HappyHorse 1.0
HappyHorse は、テキスト・画像・動画・オーディオのトークンを40層の自己注意で1つのシーケンスとして処理します。1080pの動画に、7言語のリップシンク、フォーリー、環境音を——すべて統合された1パスで生成します。
2026年4月7日、匿名で Artificial Analysis Video Arena に登場し、即座にトップに立ち、72時間後に姿を消しました。その後 Alibaba が所有を確認し、4月27日に API アクセスを開始しました。
Seedance 2.0
Seedance は Dual-Branch Diffusion Transformer を採用しています。1本のブランチが映像、別ブランチが音声を生成し、ミリ秒単位のクロスアテンションで結びつきます。1回の生成あたり最大9枚の参照画像、動画3本、オーディオ3本を受け取り、カメラの動き・照明・キャラクター演技を監督レベルで制御できます。2026年2月10日にローンチしました。
Note
要約すると、HappyHorse は1パスで統合された映像体験を生成し、Seedance は映像と音声を別ブランチで生成してから同期します。その設計上の違いが、以下の比較全体を形づくります。
テストの進め方
多くの比較記事は、同じランドスケープやポートレートのテストを繰り返し、実質的に Elo がすでに捉えた内容を再実行しています。私たちは、オーディオ・カメラ挙動・複数要素の協調——サイレントのリーダーボードでは見えない部分——を負荷にかける、実践的な制作シナリオ3本に絞りました。
各テストは次の7次元で採点しました。
- 視覚品質
- モーションの流れ
- プロンプト遵守
- カメラワーク
- オーディオ品質
- 映像と音声の同期
- 総合的な使いやすさ
テスト1:シネマティック・アクション——竹の決闘
プロンプト: 黎明、黒漆の甲冑をまとった孤独な侍が、密な竹林で刀を抜く。霧、風の音、刃の鳴り、寺の鐘。手元のタイトショットからワイドのトラッキングへと引くカメラ。
HappyHorse 1.0 の結果。 視覚面は十分に届いています——甲冑の説得力あるスペキュラ、ボリューメトリックな霧との相互作用、重量感のある抜刀。際立つのはオーディオ同期です。刃の金属音が抜刀のビジュアルと密に一致し、早すぎず遅すぎず、正しいフレームに乗っています。統合アーキテクチャの恩恵です。単一ストリームの Transformer が視覚と音を1つの出来事として扱うため、耳で差が分かります。
Seedance 2.0 の結果。 画質は明確に一段下——甲冑の質感が柔らかく、霧の立体感も弱い。カメラはここで勝ちます。タイトからワイドへの引きが仕様に近く、計画された動きに感じられます。オーディオは HappyHorse のような空間的な没入感がなく、音がシーン全体に広がるよりカメラ近くに集まった印象です。
テスト1スコアカード:
| 次元 | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| 視覚品質 | ✓ | |
| モーションの流れ | ✓ | |
| プロンプト遵守 | ✓ | |
| カメラワーク | ✓ | |
| オーディオ品質 | ✓ | |
| 映像と音声の同期 | ✓ | |
| 総合的な使いやすさ | ✓ |
判定: HappyHorse が7項目中6項目で優位。Seedance のカメラ精度は本物ですが、オーディオの差を埋めきれません。
テスト2:ミュージカル・パフォーマンス——Blue Note の最後の一曲
プロンプト: アンバー色のスポットライト下、クリムゾンのベルベットのジャズ歌手がピアノ伴奏で歌う。タバコの煙、グラスの音、ざわつく会話。メロディが高まるにつれカメラがゆっくり寄る。
HappyHorse 1.0 の結果。 ベルベットの艶はリアルで、煙は塗り足しではなく物理的にシミュレートされたように見えます。歌手の揺れには自然なリズムがあり、AI音楽映像でよく見るロボット的な振り子運動ではありません。より大きい勝ちはオーディオです。ボーカルとピアノが1つの音楽イベントとして伴い、リップの動きがボーカルラインに追従し、想定していた中盤のドリフトはありませんでした。2つのストリームを後から同期しているのではなく、統合された映像体験を1本で生成しています。
Seedance 2.0 の結果。 映像は堅実ですが雰囲気は一段弱く——ベルベットの説得力、煙のダイナミクスが及びません。オーディオはサウンドスケープ全体が不足します。クラブにはグラスの音や客のざわめきの層が必要でしたが、Seedance の出力では環境音が薄すぎるか欠落しています。カメラは規律正しく、プロンプトの寄りより HappyHorse より忠実に、指定どおりミディアムからクローズアップへ進みます。
テスト2スコアカード:
| 次元 | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| 視覚品質 | ✓ | |
| モーションの流れ | ✓ | |
| プロンプト遵守 | ✓ | |
| カメラワーク | ✓ | |
| オーディオ品質 | ✓ | |
| 映像と音声の同期 | ✓ | |
| 総合的な使いやすさ | ✓ |
判定: HappyHorse が想定以上に明確にこのラウンドを制しました。Seedance は歌手とピアノの主設定はこなしますが、空間レベルの音の指示を落としすぎて、音楽ブリーフの第一候補にはなりません。
テスト3:多要素シーン——夜市の炎
プロンプト: バンコクの屋台が、夜、高く舞い上がる炎の上で中華鍋を投げる。炎のダイナミクス、客6人、光るスマホで撮影する女性、手持ちドキュメンタリー風カメラ。オーディオはバーナーの轟き、油の音、タイ語の注文、交通音、遠くのポップミュージック。
HappyHorse 1.0 の結果。 炎の表現が印象的です——鍋投げに炎が説得力ある物理で反応し、火花の軌道も自然。麺の放物線とタイミングも妥当です。オーディオには轟き、油の音、交通、街の空気感が載っています。人物演技は弱く、屋台の人と客はいるものの、熱・速度・にぎわいへの顔の反応が不自然です。
Seedance 2.0 の結果。 視覚的には派手さは劣りますが、シーンの読み取りはより一貫しています。カメラ言語が優れます——手持ちの動きに意図があり、被写界深度の変化が注意を誘導し、炎→屋台→群衆へと明確な順序があります。人物の振る舞いはより説得力があり、屋台の動き・客の視線・群衆の反応が HappyHorse の硬い人間表現より状況に合っています。オーディオの完全性は届きません——油の音や街の環境音はあるが、タイ語で注文を叫ぶ屋台の声がありません。
テスト3スコアカード:
| 次元 | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| 視覚品質 | ✓ | |
| モーションの流れ | ✓ | |
| プロンプト遵守 | ✓ | ✓ |
| カメラワーク | ✓ | |
| オーディオ品質 | ✓ | |
| 映像と音声の同期 | ✓ | |
| 総合的な使いやすさ | ✓ | ✓ |
判定: 最も接戦のラウンドです。HappyHorse は要求された視覚・音声要素をより多く捉え、Seedance はシーンの語りが上手いです。
総合結果
| 次元 | HappyHorse 勝利 | Seedance 勝利 | 同点 |
|---|---|---|---|
| 視覚品質 | 3 | 0 | 0 |
| モーションの流れ | 2 | 1 | 0 |
| プロンプト遵守 | 2 | 1 | 1 |
| カメラワーク | 0 | 3 | 0 |
| オーディオ品質 | 3 | 0 | 0 |
| 映像と音声の同期 | 3 | 0 | 0 |
| 総合的な使いやすさ | 2 | 0 | 1 |
驚きは HappyHorse が視覚でも勝つことではありません——リーダーボードがすでに示していました。驚きは、HappyHorse がオーディオでも勝つことです。音声を入れると差は縮まるどころか広がります。統合アーキテクチャは、別生成してから同期する方式より、より一体感のある映像体験を生み出します。
コミュニティの声
クリエイター向けスレッドの sentiment は、いくつかのテーマに集約されます。
- 品質の合意。 視覚の差は明確で、オーディオが想定以上に強い——特に環境音とフォーリー——という指摘が増えています。
- 制作面の優位。 再現性、参照ベースの制御、演出ワークフローの話になると Seedance が支持されます。
- 残る限界。 両モデルとも、複数キャラクターの精密な配置は依然難しいです。
- タスク別の選択。 1本で最強のクリップが欲しいときは HappyHorse。参照で出力を指示したいときは Seedance。
コミュニティの読みは、上記のテスト結果と一致しています。
オーディオの差が意外な理由
Artificial Analysis Video Arena は、ラベルなしのクリップを並べて比較するブラインドの視覚テストを行います。サイレントでは HappyHorse が約88 Elo リード。音声付きの公開スコアはほぼ互角で、Seedance の別ブランチ方式が追いつくように見えます。
実際に——通常速度で音をオンにして全文を見ると——HappyHorse の優位は縮まらず広がりました。なぜか。短いクリップの孤立した A/B 比較は、刃の音やピアノの1音など目立つイベントを強調します。環境音の一体感こそ、HappyHorse の統合1パス生成が抜ける領域です。
HappyHorse 1.0 を選ぶとき
- 1クリップの品質が最優先
- 没入感のある環境音・サウンドスケープが必要な案件
- 高速イテレーション(H100で5秒1080pを約38秒)
- クリエイティブ先行——ムードボード、ソーシャル向けヒーロークリップ
- 多言語リップシンクのトーキングヘッド(7言語)
Seedance 2.0 を選ぶとき
- 監督レベルの入力制御(最大9参照画像、クリップ3本、オーディオ3本)
- カメラ精度とストーリーボード遵守
- キャラクター・小道具の一貫性が必要なマルチショット
- 安定性と成熟したドキュメントが必要な制作パイプライン
シナリオ別:HappyHorse か Seedance か
| シナリオ | 第一候補 | 理由 |
|---|---|---|
| ソーシャル向けヒーロークリップ | HappyHorse | 1本で最強、没入感のあるオーディオ |
| 指定ショットの商品広告 | Seedance | カメラ制御+参照駆動の一貫性 |
| ミュージックビデオ | HappyHorse | より一体感のある映像・音声生成 |
| マルチショットのナラティブ | Seedance | 参照システムでショット間を維持 |
| コンセプト探索・ムードボード | HappyHorse | 視覚の上限が高く、生成も速い |
| 精密リップシンクのトーキングヘッド | HappyHorse | 7言語で強いリップシンク |
| ストーリーボード駆動の制作 | Seedance | カメラ・ショット指示により忠実 |
| 雰囲気重視のシネマティックBロール | HappyHorse | 環境音と視覚的ドラマ |
| 参照アセットからの演出シーン | Seedance | 9画像+動画3本の参照システム |
| クライアントへのクイックピッチ | HappyHorse | 速く、初フレームのインパクトが強い |
HappyHorse 1.0 vs Seedance 2.0:FAQ
HappyHorse 1.0 は Seedance 2.0 より優れているか?
当社のテストでは、HappyHorse が視覚品質、モーションの流れ、オーディオの豊かさ、クリップ全体の使いやすさのほとんどで優れた出力を出しました。Seedance はカメラ精度と参照ベースの演出可能性で上回りました。
HappyHorse 1.0 はオーディオを生成できるか?
はい。HappyHorse は映像と同じパスでネイティブにオーディオを生成します。7言語(英語、中国語、広東語、日本語、韓国語、ドイツ語、フランス語)の対話リップシンク、フォーリー、環境音を含みます。
どちらが速いか?
HappyHorse は H100 インフラで5秒1080pを約38秒で生成します。Seedance の生成時間はプラットフォームと設定によりますが、おおむね同程度のレンジです。
HappyHorse 1.0 は本当にオープンソースか?
Alibaba はウェイト、蒸留モデル、推論コードのオープンソース公開を発表しています。2026年5月時点では fal.ai、Replicate、Alibaba Cloud API から利用できます。GitHub や Hugging Face で独立検証された公開ウェイトは、未確認のままです。
Seedance 2.0 は HappyHorse の画質に追いつけるか?
フレーム単位の比較では、HappyHorse が一貫してよりシャープな質感、より劇的な照明、より流れるようなモーションを出します。Seedance の映像も堅実ですが、一段下の印象です。
複雑なプロンプトはどちらが得意か?
HappyHorse は複雑なプロンプトからより印象的な出力を出しますが、カメラや空間の指示を創作的に解釈することがあります。Seedance は詳細な指示により文字どおり従います。
両方とも image-to-video に対応しているか?
はい。両方とも参照画像を入力に動画を生成します。公開ベンチマークでは HappyHorse の image-to-video Elo(約1,392)が Seedance(約1,351)を上回っています。
最終判定:HappyHorse 1.0 vs Seedance 2.0
HappyHorse の統合アーキテクチャは、フレーム、モーション、サウンドスケープのあらゆる面でより完成度の高いクリップを生み出します。Seedance が弱いモデルというわけではありません。別種のツールです。監督レベルの参照システム、予測可能なカメラ実行、成熟した制作エコシステムは、感動させるより出力を制御したいときに適した選択です。
2026年の最強ワークフローは両方を使うことです。ヒーローショット、コンセプト探索、スクロールを止めるクリップには HappyHorse。演出付きシーケンス、カットの揃え、再現性が要点の制作パイプラインには Seedance。
マルチショット生成の深掘りと今後の方向性については、関連記事のBACH AI動画ジェネレーターをご覧ください。
OmniArtで始める
OmniArtの動画ワークスペースでは、同じブリーフ——同じプロンプト、同じ参照アセット——でモデルを並べて比較でき、別アカウントや料金体系を行き来する必要はありません。上記の7次元スコアカードを、ご自身の制作プロンプトで試してください。勝つのは Elo が最も高いモデルではなく、「承認」までのテイクが最も少ないモデルです。