guide模型与洞察11 min read

Journal · 模型与洞察

HappyHorse 1.0 提示词指南：6 个 AI 视频实战用例

实用指南带你玩转 HappyHorse 1.0——统一文图视音 Transformer，原生音频、8 步推理、6 语种唇形同步，附 6 个真实用例。

OmniArt 团队·2026-05-04

HappyHorse 1.0 是一个 150 亿参数的单体 Transformer，它把文本、图像、视频和音频 token 放进同一个序列里联合去噪。直接的效果是：在 H100 上以约 38 秒生成 1080p 带原生联合音频的视频——比同行快 3 到 6 倍，画面感受质量也没掉。它还用同一套权重支持 6 种语言的唇形同步。本指南聚焦那些能撬动这套架构的提示词模式，以及 6 个真正能体现这个模型用途的用例。

HappyHorse 1.0 是什么

HappyHorse 1.0 是一个统一的自注意力 Transformer，共 40 层，采用三明治布局：每个模态各 4 层入口/出口，中间 32 层共享。Per-head sigmoid gating 让多模态训练保持稳定。它没有独立的音频子模块——音频 token 与视频 token 同处一个序列，一起被去噪。

规格	数值
参数量	约 150 亿
分辨率	最高 1080p
时长	3–15 秒（默认 5 秒）
画幅比	16:9、9:16、1:1、4:3、3:4
推理时间	H100 上 1080p 约 38 秒
推理步数	8 步（DMD-2 蒸馏，无 CFG）
原生音频	支持（联合对白、Foley 拟音、环境音）
唇形同步语种	6 种（英语、普通话、日语、韩语、德语、法语）
输入	文本、图像

统一架构为什么重要

大多数竞品视频模型把音频当作第二阶段：先渲染视频，再合成音轨，再尝试对齐。HappyHorse 在同一次去噪过程里把两者一起生成出来。这就是为什么对白能咬准口型、Foley 能落在动作触发点上、环境声能在一段片段的不同切换之间保持连贯。

8 步 DMD-2 蒸馏是故事的另一半。多数旗舰视频模型要跑 25–50 步去噪，并叠加 classifier-free guidance（CFG）。HappyHorse 把这两样都砍掉——8 步、无 CFG——用一点点画质余量换来 3–6 倍的提速。对于以快速迭代为主的工作流，这意味着每小时三稿和每小时十二稿之间的差距。

提示词工程框架

四个习惯能拿走质量提升里的大部分。它们对其他带音频的视频模型也通用，但 HappyHorse 给到的回报最高。

把音频放在第一位思考

把音频当作简报中的一等元素，而不是事后的补丁。下面这个对比写起来差距很小，看起来差距很大。

没有音频指令	带音频指令
"一位街头小吃摊主在曼谷夜市里炒面。"	"一位街头小吃摊主在曼谷夜市里炒面——油在锅中滋滋作响、铲子刮擦金属、盘子碰撞声、远处摩托车声、顾客用泰语的交谈声。"

使用具体的镜头语言

模型会按意图解析摄影术语。该用就用。

"缓慢推镜（slow push-in）"——逐渐放大、营造紧张感
"跟拍镜头（tracking shot）"——横向或主体背后的跟随镜头
"低角度（low-angle）"——表现力量与体量的视角
"微距特写（macro close-up）"——极致细节，浅景深
"360 度环绕（360-degree orbit）"——绕主体一周
"航拍 / 无人机镜头（aerial / drone shot）"——俯瞰前进
"甩镜（whip pan）"——快速横向甩动

把音频分三层来铺

音频在被描述为前景、中景和背景三层时效果最佳——和混音师做场景混音的方式一样。

前景： 主导声音（对白、主要音效）
中景： 次要声音（脚步、衣料摩擦、轻微碰撞）
背景： 环境质感（人群、雨声、车流、风声）

锚定视觉风格

两到三个风格关键词比五个落得更干净。下面几个风格命中率较稳：

写实——"变形宽银幕散景、35mm 胶片颗粒、青橙调色"
动漫 / 风格化——"赛璐璐上色、粗描边、扁平鲜明色块"
复古——"1990 年代 VHS 颗粒、过饱和暖色、CRT 扫描线"
商业——"影棚布光、白色无影背景、微距镜头"

七条核心建议

把主体和动作前置到前 15 个词里。
显式描述音频；对白放进引号。
用具体的镜头指令替代模糊的动词。
用电影、色调或传统作为参照来命名视觉风格。
加上物理细节——玻璃上的雨、被风带起的丝绸、金属上的油。
提示词控制在大约 100 个词以内。
先在低分辨率上试，再去生成 1080p。

六个实测用例

六个简报，覆盖模型的不同能力面。每一个都是这套架构真正擅长的工种。

1. 自带 ASMR 级原生音效的短视频

为习惯在后期叠音频的 TikTok 与 Reels 创作者准备。

"Thai street food vendor flipping pad see ew on a flat-top griddle, close-up of wok with garlic and chilis, oil sizzles loud, spatula scrapes metal, neon signage above, warm tungsten lighting, handheld camera with subtle shake, light rain on plastic awning in the background, customer chatter in Thai mid-distance. 9:16."

2. 电影级精准音效的营销创意

产品揭幕，运动忠于产品，音效精准落在动作上。

"Luxury chronograph watch on a polished volcanic stone, slow-motion water droplets bead and roll across the dial, slow 360-degree orbit camera, soft mechanical click as the crown is pressed, deep ambient hum, studio lighting on a black background, anamorphic flare from upper left, 16:9."

3. 一次生成支持多语种投放

唇形同步用同一套权重就能搞定。同一镜头，6 种语言。

"A barista in a specialty coffee shop slides a flat white across a wooden counter and says, in casual Mandarin, '今天的豆子很特别，慢慢喝。' Espresso machine hisses, cup slides on wood, indie film aesthetic, soft window light from behind, shallow depth of field, 16:9."

4. 带分层环境音的 B-roll 与预演

那种环境音和画面同等重要的建立镜头。

"Wide shot of a figure in a red parka approaching a glowing Antarctic research station at twilight, slow forward tracking, the camera then pulls back into a wide aerial, howling wind continuous, boots crunching frozen snow, faint radio crackle from inside the station, atmospheric ambient pad, cool blue palette, 21:9."

5. 从静态图生成的电商产品运动

图生视频简报：让一张主图动起来，又不丢质感。

"White running shoes on a charcoal pedestal, slow 360-degree orbit revealing tread, mesh, and neon accents, fine dust particles drift through a key light beam, soft whoosh as the shoe rotates, faint rubber creak, soft landing thud at the end of the rotation, soft studio lighting, 1:1."

6. 给 AI 研究的多模态压力测试

一段对联合音视频序列的 jam test。

"Three-piece jazz ensemble in a dim club: drums brushed lightly, walking double bass, saxophone solo. The audience taps a glass on the table in rhythm. Smoke drifts through a single overhead spotlight, vintage 16mm film grain, warm amber tungsten, slow lateral tracking from drums to saxophonist, 16:9."

与同类模型对比

HappyHorse 在 2026 年视频模型阵容里的位置。

对比对象	HappyHorse 优势	对方模型优势
Seedance 2.0	8 步推理、联合音频、6 语唇形同步、占用更小	多参考系统（最多 12 个素材）、2K、原生多镜头
Kling 3.0	开源路线、推理更快、原生音频	4K 分辨率、成熟的唇形同步覆盖
Veo 3	统一架构、快 3–6 倍	空间音频、原生 4K、Google 生态
Wan 2.2	一次生成的原生联合音频	当前已开源；HappyHorse 权重尚未公开发布

诚实的局限

把交付期押在 HappyHorse 上之前，需要先了解三件事。

权重和推理代码尚未公开（截至撰写时）。仓库地址 github.com/FreeyW/HappyHorse 已经存在，但可运行的代码树还没放上去。在此期间，请通过 OmniArt 或 Alibaba Dashscope API 使用该模型。
每段最长 15 秒。 没有原生的多镜头时间线；要做更长的叙事，请用其他模型的 Extend Mode 串起来。
没有多模态参考系统。 仅支持文本和图像。如果你需要视频或音频参考来做条件控制，请用 Seedance 2.0。

Note

经过 DMD-2 蒸馏的变体不依赖 classifier-free guidance，这正是 8 步推理路径成立的原因。在大多数生产工作里，它都是合适的默认选择；只有在你需要画质上限拉满、并且能接受更长的去噪循环时，才回到基础模型。

在 OmniArt 上开始

HappyHorse 1.0 与 Seedance 2.0、Kling、Veo 3、Sora 2、PixVerse V6 一起住在 OmniArt 的视频工作区里。一个账户、一份额度、并排做模型评估。建议先用上面的社交 ASMR 简报来感受"音频先行"的工作流，再切到电商产品简报试试图生视频。

如果你正在 HappyHorse 与 Seedance 2.0 之间纠结，HappyHorse 1 对比 Seedance 2 一文按镜头逐一拆解了取舍。如果要做更长的叙事片段，BACH 摄影师指南是更合适的起点。

Start creating

准备开始创作？

使用 AI 开始生成精彩内容