guideModeller ve içgörüler7 min read
Journal · Modeller ve içgörüler

HappyHorse 1.0: yapay zeka videosu için prompt rehberi ve altı kullanım senaryosu

HappyHorse 1.0 için pratik rehber — yerel sesli birleşik metin-görsel-video-ses Transformer, 8 adımlı çıkarım ve 6 dilli dudak senkronu. Altı kullanım senaryosu.

OmniArt Ekibi·
HappyHorse 1.0: yapay zeka videosu için prompt rehberi ve altı kullanım senaryosu

HappyHorse 1.0, metin, görsel, video ve ses token'larını tek bir dizide birlikte gürültü gidermek için kullanan 15 milyar parametreli tek bir Transformer'dır. Pratik etkisi, H100'de kabaca 38 saniyede yerel ortak sesli 1080p video üreten — algısal kaliteden ödün vermeden akranlarından üç ila altı kat daha hızlı — bir modeldir. Ayrıca tek bir ağırlık setinden altı dilde çok dilli dudak senkronu sunar. Bu rehber, mimariyi kullanan prompt kalıplarını ve modelin gerçekten ne için olduğunu gösteren altı kullanım senaryosunu kapsar.

HappyHorse 1.0 nedir?

HappyHorse 1.0, sandviç düzeninde 40 katmanlı birleşik self-attention Transformer'dır: modalite başına dört giriş/çıkış katmanı, 32 paylaşılan orta katman. Başlık başına sigmoid kapı, çok modlu eğitimi kararlı tutar. Ayrı bir ses alt modülü yok — ses token'ları video token'larıyla aynı dizide, birlikte gürültü giderilir.

ÖzellikDeğer
Parametreler~15 milyar
Çözünürlük1080p'ye kadar
Süre3–15 saniye (varsayılan 5 sn)
En-boy oranları16:9, 9:16, 1:1, 4:3, 3:4
Çıkarım süresiH100'de 1080p için ~38 saniye
Çıkarım adımları8 (DMD-2 damıtma, CFG yok)
Yerel sesEvet (ortak diyalog, Foley, ortam)
Dudak senkronu dilleri6 (İngilizce, Mandarin, Japonca, Korece, Almanca, Fransızca)
GirdilerMetin, görsel

Birleşik mimari neden önemli?

Çoğu rakip video modeli sesi ikinci aşamada ekler: videoyu render edin, sonra parça sentezleyin, sonra senkron deneyin. HappyHorse bunları aynı gürültü giderme geçişinde birlikte üretir. Bu yüzden diyalog ağızda kalır, Foley temasta düşer ve ortam katmanları klip içinde tutarlı kalır.

8 adımlı DMD-2 damıtması hikâyenin ikinci yarısıdır. Çoğu amiral gemisi video modeli sınıflandırıcısız rehberlikle 25–50 gürültü giderme adımı alır. HappyHorse ikisini de bırakır — 8 adım, CFG yok — ve küçük bir tavan payı karşılığında 3–6× hızlanma sağlar. İterasyon yoğun iş akışları için bu, saatte üç taslak ile on iki taslak arasındaki farktır.

Prompt mühendisliği çerçevesi

Dört alışkanlık kalite artışının çoğunu kazandırır. Diğer ses farkında video modellerine aktarılabilirler, ancak HappyHorse bunlardan çoğundan daha fazla ödüllendirir.

Önce sesi düşünün

Sesi brief'in birinci sınıf öğesi olarak ele alın, sonradan eklenen bir şey değil. Aşağıdaki karşıtlık okuması küçük, izlemesi büyüktür.

Ses yönlendirmesi olmadanSes yönlendirmesiyle
"Bangkok gece pazarında sokak yemekçisi erişte kızartıyor.""Bangkok gece pazarında sokak yemekçisi erişte kızartıyor — wokta yağ cızırdıyor, spatula metale sürtünüyor, tabak şıngırtısı, uzak motorsiklet, Tayca müşteri sohbeti."

Belirli kamera dili kullanın

Model sinematografi terimlerini niyetle işler. Kullanın.

  • "Yavaş itme" — gerilim kuran kademeli zoom
  • "Takip çekimi" — yanal veya konunun arkasından kamera takibi
  • "Alçak açı" — güç ve ölçek perspektifi
  • "Makro yakın plan" — aşırı detay, sığ alan derinliği
  • "360 derece yörünge" — konunun etrafında tam dönüş
  • "Hava / drone çekimi" — ileri hareketli kuş bakışı
  • "Whip pan" — hızlı yatay savurma

Sesi üç boyutta katmanlayın

Ses, bir ses tasarımcısının sahneyi karıştırdığı gibi ön plan, orta plan ve arka plan olarak tanımlandığında en iyi çalışır.

  • Ön plan: baskın ses (diyalog, ana SFX)
  • Orta plan: ikincil sesler (adımlar, hışırtı, şıngırtı)
  • Arka plan: ortam dokusu (kalabalık, yağmur, trafik, rüzgâr)

Görsel stili sabitleyin

İki veya üç stil token'ı beşten daha temiz oturur. Güvenilir yönlendiren birkaçı:

  • Fotogerçekçilik — "anamorfik bokeh, 35mm film greni, teal-turuncu derecelendirme"
  • Anime / stilize — "cel-shading, kalın konturlar, düz cesur renkler"
  • Retro — "1990'lar VHS greni, aşırı doygun sıcak tonlar, CRT tarama çizgileri"
  • Ticari — "stüdyo aydınlatması, beyaz siklo, makro lens"

Yedi temel ipucu

  1. İlk on beş kelimede konu ve eylemi öne alın.
  2. Sesi açıkça tanımlayın; diyaloğu tırnak içine alın.
  3. Genel fiiller yerine belirli kamera yönü kullanın.
  4. Görsel stili film, palet veya gelenekle adlandırın.
  5. Fiziksel detay ekleyin — camlardaki yağmur, rüzgârda ipek, metalde yağ.
  6. Prompt'ları ~100 kelimenin altında tutun.
  7. 1080p üretmeden önce düşük çözünürlükte test edin.

Altı test edilmiş kullanım senaryosu

Modelin farklı bölümlerini zorlayan altı brief. Her biri mimarinin gerçekten iyi olduğu iş türlerindendir.

1. Yerel ASMR kalitesinde sesle kısa form sosyal

TikTok ve Reels yaratıcıları için — sesi sonradan katmanlamak zorunda kalanlar.

"Tay sokak yemekçisi düz ızgara üzerinde pad see ew çeviriyor, sarımsak ve biberli wok yakın planı, yağ yüksek sesle cızırdıyor, spatula metale sürtünüyor, üstte neon tabela, sıcak tungsten aydınlatma, hafif sallantılı el kamerası, arka planda plastik tent üzerinde hafif yağmur, orta mesafede Tayca müşteri sohbeti. 9:16."

2. Sinematik hassasiyette sesle pazarlama yaratıcısı

Nesneye saygı duyan hareket ve eyleme oturan sesle ürün tanıtımı.

"Cilalı volkanik taş üzerinde lüks kronometre, yavaş çekimde su damlaları kadran üzerinde birikiyor ve yuvarlanıyor, yavaş 360 derece yörünge kamerası, taç basıldığında yumuşak mekanik tık, derin ortam uğultusu, siyah arka planda stüdyo aydınlatması, sol üstten anamorfik parıltı, 16:9."

3. Tek üretimden çok dilli kampanyalar

Dudak senkronu tek ağırlık setinden çalışır. Aynı çekim, altı dil.

"Özel kahve dükkanında bir barista ahşap tezgâh üzerinden flat white kaydırıyor ve gündelik Mandarin'de '今天的豆子很特别,慢慢喝。' diyor. Espresso makinesi tıslıyor, fincan tahta üzerinde kayıyor, bağımsız film estetiği, arkadan yumuşak pencere ışığı, sığ alan derinliği, 16:9."

4. Katmanlı çevresel sesle B-roll ve ön görselleştirme

Atmosferin görüntü kadar iş yaptığı kurucu çekimler.

"Alacakaranlıkta parlayan bir Antarktika araştırma istasyonuna yaklaşan kırmızı parkalı bir figürün geniş çekimi, yavaş ileri takip, kamera sonra geniş hava çekimine geri çekiliyor, uluyan rüzgâr sürekli, donmuş karda çatırdayan botlar, istasyon içinden hafif telsiz cızırtısı, atmosferik ortam pedi, soğuk mavi palet, 21:9."

5. Durgun görselden e-ticaret ürün hareketi

Malzemeleri kaybetmeden kahraman çekimi canlandıran görselden videoya brief.

"Kömür rengi kaide üzerinde beyaz koşu ayakkabıları, taban, file ve neon vurguları ortaya çıkaran yavaş 360 derece yörünge, ince toz parçacıkları ana ışık demetinde süzülüyor, ayakkabı dönerken yumuşak vınlama, hafif kauçuk gıcırtısı, dönüş sonunda yumuşak iniş vuruşu, yumuşak stüdyo aydınlatması, 1:1."

6. Yapay zeka araştırması için çok modlu stres testi

Ortak ses-video dizisi için jam testi.

"Loş bir kulüpte üç parçalı caz topluluğu: fırçayla hafif davul, yürüyen kontrbas, saksafon solosu. Seyirci masada ritimle bardağa vuruyor. Tek üst spot ışığından duman süzülüyor, vintage 16mm film greni, sıcak kehribar tungsten, davullardan saksafonistine yavaş yanal takip, 16:9."

Nasıl karşılaştırılır

HappyHorse'un 2026 video kadrosundaki yeri.

KarşıHappyHorse avantajıDiğer model avantajı
Seedance 2.08 adımlı çıkarım, ortak ses, 6 dilli dudak senkronu, daha küçük ayak iziÇoklu referans (12 varlığa kadar), 2K, yerel çoklu çekim
Kling 3.0Açık kaynak yolu, daha hızlı çıkarım, yerel ses4K çözünürlük, yerleşik dudak senkronu kapsamı
Veo 3Birleşik mimari, 3–6× daha hızlıMekânsal ses, yerel 4K, Google ekosistemi
Wan 2.2Tek geçişte yerel ortak sesBugün açık kaynak; HappyHorse ağırlıkları henüz kamuya açık değil

Dürüst sınırlar

Bir teslim tarihini HappyHorse'a bağlamadan önce bilmeniz gereken üç şey.

  • Ağırlıklar ve çıkarım kodu henüz yayınlanmadı bu yazı tarihinde. Depo github.com/FreeyW/HappyHorse adresinde var ancak çalıştırılabilir ağaç henüz yok. Bu arada modeli OmniArt veya Alibaba Dashscope API üzerinden kullanın.
  • Klip başına 15 saniye sınırı. Yerel çoklu çekim zaman çizelgesi yok; daha uzun anlatılar için başka bir modelde Extend Mode ile zincirleyin.
  • Çok modlu referans sistemi yok. Yalnızca metin ve görsel. Video veya ses referans koşullandırması gerekiyorsa Seedance 2.0 kullanın.

Note

DMD-2 damıtılmış varyant sınıflandırıcısız rehberlik olmadan çalışır; 8 adımlı çıkarım yolunu mümkün kılan budur. Çoğu üretim işi için doğru varsayılandır; maksimum algısal kaliteye ihtiyacınız varsa ve daha uzun gürültü giderme döngüsü için zamanınız varsa temel modele ulaşın.

OmniArt'ta başlamak

HappyHorse 1.0, Seedance 2.0, Kling, Veo 3, Sora 2 ve V6 ile birlikte OmniArt video çalışma alanında yaşar. Tek hesap, tek kredi bakiyesi, yan yana model değerlendirmesi. Ses öncelikli iş akışını hissetmek için yukarıdaki sosyal ASMR brief'iyle başlayın, görselden videoyu test etmek istediğinizde e-ticaret ürün brief'ine geçin.

HappyHorse ile Seedance 2.0 arasında seçim yapıyorsanız, HappyHorse 1 vs Seedance 2 karşılaştırması ödünleşimleri çekim çekim ele alır. Daha uzun anlatı parçaları için BACH sinematograf rehberi daha iyi başlangıç noktasıdır.

Start creating

Oluşturmaya hazır mısınız?

AI ile harika içerikler üretmeye başlayın