guideチュートリアルと使い方ガイド8 min read
Journal · チュートリアルと使い方ガイド

HappyHorse 1.0:AI動画プロンプトガイドと6ユースケース

HappyHorse 1.0実践ガイド——ネイティブオーディオ付き統合テキスト・画像・動画・オーディオTransformer、8ステップ推論、6言語リップシンク。6ユースケース内包。

OmniArt チーム·
HappyHorse 1.0:AI動画プロンプトガイドと6ユースケース

HappyHorse 1.0は、テキスト・画像・動画・オーディオトークンを1シーケンスで共同ノイズ除去する150億パラメータ単一Transformerです。実用的効果は、H100上約38秒で1080p動画とネイティブ共同オーディオを生成——同業比3〜6倍速——知覚品質を維持。単一ウェイトセットから6言語リップシンクも。本ガイドはアーキテクチャを活かすプロンプトパターンと、モデルの本当の用途を示す6ユースケースをカバーします。

HappyHorse 1.0とは

モダリティごとに4入退層、32共有中間層のサンドイッチ40層統合自己注意Transformer。ヘッドごとシグモイド gating でマルチモーダル学習安定。別オーディオサブモジュールなし——オーディオトークンは動画トークンと同シーケンスで共同ノイズ除去。

仕様
パラメータ約150億
解像度最大1080p
3〜15秒(デフォルト5s)
アスペクト比16:9、9:16、1:1、4:3、3:4
推論時間H100で1080p約38秒
推論ステップ8(DMD-2蒸留、CFGなし)
ネイティブオーディオあり(共同対話、Foley、環境)
リップシンク言語6(英、北京語、日、韓、独、仏)
入力テキスト、画像

統合アーキテクチャが重要な理由

多くの競合は2段階でオーディオを後付け:動画レンダー→トラック合成→sync 試行。HappyHorseは同一ノイズ除去 pass で共同生成。対話が口元に、Foleyが接触に、環境層がクリップ内カット間で coherent。

8ステップDMD-2蒸留が第2の story:多くのフラッグシップはCFG付き25〜50ステップ。HappyHorseは8ステップ、CFGなし——わずか headroom と引き換えに3〜6倍高速。イテレーション heavy workflow では1時間3ドラフトと12ドラフトの差。

プロンプトエンジニアリングフレームワーク

4習慣が品質 lift の大部分。他オーディオ対応動画モデルにも移植可だが、HappyHorseはより reward。

オーディオファーストで考える

オーディオを afterthought ではなく brief の第一級要素に。下の対比は読むと小さく見て大きい。

オーディオ指示なしオーディオ指示あり
「バンコク夜市で屋台が麺を炒める。」「バンコク夜市で屋台が麺を炒める——鍋の油が弾ける音、ヘラが金属を scrape、皿の音、遠くのバイク、タイ語の客の chatter。」

具体カメラ言語

シネマトグラフィ用語を意図付きで解析。

  • 「Slow push-in」 — 緊張を build する gradual ズーム
  • 「Tracking shot」 — 横または被写体後方 follow
  • 「Low-angle」 — 力と scale パースペクティブ
  • 「Macro close-up」 — 極端詳細、浅い被写界深度
  • 「360-degree orbit」 — 被写体周り全回転
  • 「Aerial / drone shot」 — 前進付き俯瞰
  • 「Whip pan」 — 高速水平スイング

オーディオを3次元で layer

前景・中景・背景——サウンドデザイナーが scene を mix するのと同様。

  • 前景: 支配音(対話、主SFX)
  • 中景: 二次(足音、衣擦れ、カチャ音)
  • 背景: 環境 texture(群衆、雨、交通、風)

ビジュアルスタイルを anchor

2〜3スタイルトークンが5より clean。 reliably route する例:

  • フォトリアリズム — 「アナモフィックボケ、35mm grain、ティールオレンジ grading」
  • アニメ/スタイライズ — 「セルシェーディング、太線、 flat bold 色」
  • レトロ — 「1990年代VHS grain、過飽和暖色、CRT scan line」
  • コマーシャル — 「スタジオ照明、白サイクロ、マクロレンズ」

7つの core tips

  1. 最初15語に被写体とアクション。
  2. オーディオ明示;対話は引用符内。
  3. 汎用動詞より具体カメラ指示。
  4. 映画・パレット・伝統でスタイル命名。
  5. 物理詳細——ガラスの雨、風に揺れる silk、金属の油。
  6. プロンプト100語未満。
  7. 1080p前に低解像度テスト。

6 tested ユースケース

アーキテクチャが genuinely good な仕事の brief。

1. ネイティブASMR級サウンドのショートSNS

TikTok/Reels クリエイター向け——以前は post でオーディオ layer。

「タイ屋台が flat-top で pad see ew を flip、ニンニクと唐辛子の wok クローズアップ、油が loud に弾ける、ヘラ scrape、上ネオン、暖タングステン、 handheld 微 shake、雨が plastic 日除け、タイ語客 chatter 中距離。9:16。」

2. シネマティック精密オーディオのマーケクリエイティブ

オブジェクトを honor するモーションとアクションに land するオーディオの product reveal。

「磨かれた火山石の高級クロノグラフ、スローモーション水滴が dial を bead・roll、360度スローオービット、 crown 押下の soft mechanical click、 deep ambient hum、黒背景スタジオ照明、左上アナモフィックフレア、16:9。」

3. 1生成からの多言語キャンペーン

単一ウェイトセットリップシンク。同ショット6言語。

「スペシャルティコーヒーショップのバリスタが flat white を木 counter 越しに slide し、カジュアル北京語で『今天的豆子很特别,慢慢喝。』と言う。エスプレッソ hiss、木上 cup slide、インディー映画 aesthetic、後方窓光、浅い被写界深度、16:9。」

4. 環境オーディオ layer のB-roll・プレビズ

ambience が picture と同程度働く establishing。

「 twilight に光る南極研究基地へ赤パーカの人物が近づく wide、 slow forward tracking、その後 wide aerial へ pull back、 howling 風 continuous、 frozen 雪を crunch する boots、基地内 faint radio crackle、 atmospheric pad、 cool blue、21:9。」

5. スチルからのECプロダクトモーション

マテリアルを loss せず hero をアニメーションする image-to-video。

「 charcoal 台座の白ランニングシューズ、 tread・mesh・ネオンアクセントを見せる360度スローオービット、 key light beam 中 fine dust、回転 whoosh、 faint rubber creak、回転 end soft thud、ソフトスタジオ、1:1。」

6. AI研究向けマルチモーダル stress test

共同映像音声シーケンスの jam test。

「薄暗い club の3 piece jazz: brush ドラム、 walking ベース、 sax solo。客が table の glass を rhythm に tap。単一 overhead spotlight 中 smoke drift、 vintage 16mm grain、暖 amber tungsten、 drums から sax へ slow lateral tracking、16:9。」

比較

2026動画ロスター内 position。

vs.HappyHorse 優位他モデル優位
Seedance 2.08ステップ、共同オーディオ、6言語 lip-sync、小 footprintマルチ参照(最大12 asset)、2K、ネイティブマルチショット
Kling 3.0OSS path、高速、ネイティブオーディオ4K、確立 lip-sync
Veo 3統合アーキテクチャ、3〜6倍速空間オーディオ、ネイティブ4K、Google ecosystem
Wan 2.21 pass ネイティブ共同オーディオ今日 OSS;HappyHorse weight 公開 pending

honest 限界

deadline commit 前に3点。

  • 執筆時点、weight と推論コード未公開。 github.com/FreeyW/HappyHorse リポはあるが runnable tree なし。 meantime OmniArt か Alibaba Dashscope API。
  • 1クリップ15秒 cap。 ネイティブマルチショット timeline なし;長 narrative は他モデル Extend で chain。
  • マルチモーダル参照システムなし。 テキストと画像のみ。動画・オーディオ参照 conditioning は Seedance 2.0。

Note

DMD-2蒸留 variant は CFG なし——8ステップ推論 path の理由。多くの production では default; maximum 知覚品質と長い denoising loop 時間があるときのみ base model。

OmniArtでの始め方

HappyHorse 1.0はSeedance 2.0、Kling、Veo 3、Sora 2、V6と並存。1アカウント、1残高、 side-by-side 評価。 social ASMR brief でオーディオファースト workflow、その後 image-to-video テストで EC product brief。

HappyHorse と Seedance 2.0 選択はHappyHorse 1 vs Seedance 2。長 narrative はBACHシネマトグラファーガイド

Start creating

制作を始めますか?

AIで魅力的なコンテンツを生成しましょう