HappyHorse 1.0: гайд по промптам и шесть use case для AI video
Практический гайд HappyHorse 1.0 — unified text-image-video-audio Transformer, нативное аудио, 8-step inference и lip-sync на 6 языках. Шесть use case.

HappyHorse 1.0 — единый 15B Transformer, денойзящий text, image, video и audio tokens в одной последовательности. Практический эффект: 1080p с joint audio ~38 с на H100 — в 3–6 раз быстрее peers без заметной потери качества. Lip-sync на шести языках из одного weight set. Гайд: промпты под архитектуру и шесть use case.
Что такое HappyHorse 1.0
40 слоёв sandwich: 4 entry/exit на модальность, 32 shared middle. Sigmoid gating стабилизирует multimodal training. Отдельного audio submodule нет — audio tokens в той же последовательности, что video.
| Spec | Значение |
|---|---|
| Параметры | ~15B |
| Resolution | до 1080p |
| Длительность | 3–15 с (default 5 с) |
| Aspect ratios | 16:9, 9:16, 1:1, 4:3, 3:4 |
| Inference | ~38 с 1080p на H100 |
| Steps | 8 (DMD-2, без CFG) |
| Native audio | Диалог, Foley, ambient |
| Lip-sync | EN, ZH, JA, KO, DE, FR |
| Входы | Text, image |
Зачем unified architecture
Большинство конкурентов: видео, потом аудио, потом sync. HappyHorse — один denoising pass: диалог on-mouth, Foley на контакт, ambient связен внутри клипа.
8-step DMD-2 без CFG — 3–6× speedup vs 25–50 steps + CFG у флагманов. Для итераций — разница между тремя и двенадцатью драфтами в час.
Framework промптов
Audio-first
| Без аудио | С аудио |
|---|---|
| «Уличный вок в Бангкоке жарит лапшу.» | «… — шипение масла, лопатка по металлу, тарелки, мото вдали, разговор по-тайски.» |
Язык камеры
Slow push-in, tracking shot, low-angle, macro close-up, 360° orbit, aerial/drone, whip pan.
Три слоя звука
Foreground (диалог, главный SFX), mid-ground (шаги, шорох), background (толпа, дождь, трафик).
Стиль
2–3 токена: «anamorphic bokeh, 35mm grain, teal-orange»; cel-shading; VHS retro; commercial cyclorama.
Семь советов
- Субъект и действие в первых 15 словах.
- Аудио явно; диалог в кавычках.
- Конкретная камера.
- Стиль с отсылкой к фильму/палитре.
- Физические детали — дождь на стекле, шёлк на ветру.
- До ~100 слов.
- Тест на низком res перед 1080p.
Шесть use case
1. Соц с ASMR-звуком
«Тайский вок pad see ew, close-up, шипение, лопатка, неон, tungsten, handheld shake, дождь на навесе, разговор по-тайски. 9:16.»
2. Marketing с точным аудио
«Luxury chronograph на вулканическом камне, капли воды в slow-mo, 360° orbit, click короны, ambient hum, studio black, anamorphic flare слева сверху. 16:9.»
3. Мультиязычная кампания
«Бариста скользит flat white и говорит по-деловому по-китайски: «今天的豆子很特别,慢慢喝。」 Шипение машины, чашка по дереву, indie film, window light, shallow DOF. 16:9.»
4. B-roll / previz
«Wide: фигура в красной парке к антарктической станции на сумерках, tracking вперёд, затем aerial back, ветер, хруст снега, радио из станции, cool blue, 21:9.»
5. E-commerce image-to-video
«Белые кроссовки на charcoal pedestal, slow 360° orbit, пыль в луче, whoosh, лёгкий thud, studio, 1:1.»
6. Stress test для research
«Jazz trio в клубе: brushed drums, walking bass, sax solo, публика стучит стаканом, дым в spotlight, 16mm grain, lateral tracking drums→sax, 16:9.»
Сравнение
| vs | HappyHorse | Другая модель сильнее |
|---|---|---|
| Seedance 2.0 | 8-step, joint audio, 6 языков lip-sync, меньше footprint | До 12 assets ref, 2K, native multi-shot |
| Kling 3.0 | Open path, быстрее, native audio | 4K, зрелый lip-sync |
| Veo 3 | Unified, 3–6× быстрее | Spatial audio, 4K, Google stack |
| Wan 2.2 | Joint audio за проход | Open today; веса HappyHorse pending |
Честные лимиты
- Веса и inference code ещё не опубликованы —
github.com/FreeyW/HappyHorseбез runnable tree; пока OmniArt или Dashscope API. - Лимит 15 с; нет native multi-shot — chain Extend в другой модели.
- Только text и image ref — для video/audio ref → Seedance 2.0.
Note
DMD-2 distilled без CFG — default для продакшна; base model только при максимуме качества и времени на длинный denoising.
С чего начать в OmniArt
Рядом с Seedance 2.0, Kling, Veo 3, Sora 2, V6. Начните с ASMR street food brief, затем e-commerce image-to-video.
Выбор: HappyHorse 1 vs Seedance 2. Длинный нарратив: BACH.