guide模型与洞察14 min read

Journal · 模型与洞察

Seedance 2.0 提示词指南：6 个 AI 视频用例

面向创作者的 Seedance 2.0 实操指南：多参考输入、原生 2K 输出、多镜头时间线，以及 6 个在 OmniArt 内实测过的提示词案例。

OmniArt 团队·2026-05-02

当你拿到的简报像一份导演阐述时，Seedance 2.0 通常就是创作者会拿起的那个模型。ByteDance 在 2026 年 2 月推出了它，作为一个统一的多模态扩散 Transformer，单条提示词里可以同时接收文本、最多 9 张图像、3 段参考视频和 3 段音频文件——而且全部都能用 @image1、@video1 这样的语法被显式寻址。这是目前最干净的一条路径，可以在多镜头时间线上保持角色一致性。本文讲清楚这套尊重模型本意的提示词语法，以及 6 个我们已经实测过的用例，附上提示词与结果。

Seedance 2.0 是什么

Seedance 2.0 可以生成 4–15 秒、最高 2K 的片段，并原生输出立体声音频。真正的看点不是分辨率——而是它的多参考架构和时间线式的多镜头提示方式。

规格	数值
架构	统一多模态扩散 Transformer
最高分辨率	2K
时长	4–15 秒
图像输入	最多 9 张（`@image1`–`@image9`）
视频输入	最多 3 段（`@video1`–`@video3`）
音频输入	最多 3 段（`@audio1`–`@audio3`）
原生音频输出	支持——对白、音效、环境音、配乐
唇形同步语种	7 种以上
模式	Standard、Fast

多参考系统为什么重要

大多数视频模型只接受一张参考图，或者干脆不接受。Seedance 2.0 接受一整组参考素材，并且允许你在提示词内部把每一份参考绑定到一个角色上。用 @image1 指代角色面孔，@image2 指代服装，@image3 指代场景，@video1 指代你想要的运镜，@audio1 指代背景音乐。模型会把每一份参考视为独立指令，而不是把它们平均成一团噪声。

这就是为什么角色形象能跨镜头保持一致的实际原因：同一份 @image 参考被传入时间线中的每一个镜头，模型把它当作身份锚点，而不是每次都从提示词文本里重新推断角色长什么样。

真正好用的提示词结构

Seedance 2.0 偏爱六段式结构。

主体 — 画面里出现的是谁或什么
动作 / 运动 — 他们在做什么
场景 / 环境 — 发生在哪里
视觉风格 — 影片参考、调色板、年代
镜头指令 — 具体的电影摄影术语
灯光 — 方向、质感、时段

一条好用的模板提示词：

"主体（如适用，附 @image1 参考）。动作。场景。视觉风格。镜头指令（具体的电影摄影术语）。灯光细节。"

多镜头时间线写法

要做多镜头工作，把时间线直接写进提示词里。

0–4s: 全景定场镜头，角色（参考 @image1）走入画面
4–8s: 中景跟随镜头，跟拍他们穿过房间
8–12s: 围绕他们走到的桌子做 360 度环绕

把同一个 @image1 钉死在每一段里。剪到下一镜时，形象保持一致。

参考标签的使用纪律

一份很短但很值钱的小规则：

用 @image1、@image2 表示人脸照与产品图。
用 @video1 表示你想被复用的运镜。
当背景音比模型默认音轨更重要时，用 @audio1。
在文本里显式引用每一个标签。不要指望模型自己去推断哪一份参考对应哪一个角色。

6 个实测过的用例与提示词

下面每一条提示词我们都在 Seedance 2.0 上跑过。结果列写的是我们实际拿到的产物，生成时间在 Standard 720p 下测得。

1. 电影感场景

"一位身穿深色长大衣的退役侦探，在夜晚走过一条被雨水浸透的小巷。霓虹招牌在湿漉漉的鹅卵石上反射出红蓝光。他停下脚步，点燃一支烟，回头看了一眼。从全景缓慢推进到中近景。黑色电影风格，变形宽银幕镜头眩光，青橙色调，胶片颗粒感。"

结果。 推镜流畅。雨水反射可信，大衣运动自然。点烟动作完成，没有手部畸变。雨声与城市环境音同步生成。约 70 秒。

2. 产品广告片

"一瓶奢华香水在黑色大理石台面上缓慢旋转。金色液体在转动时折射光线。空气中漂浮着柔软的金粉颗粒。微距特写，缓慢的 360 度环绕镜头。带暖色轮廓光的影棚布光，高端商业摄影风格。"

结果。 玻璃折射与液体行为准确。颗粒漂浮自然。完整旋转流畅，光线角度正确，大理石纹理清晰可见。约 65 秒。

3. 音乐视频

"一位身穿飘逸红色丝绸长裙的女歌手在日落时分的天台上演唱。城市天际线在她身后延伸。风戏剧性地吹动她的头发与裙摆。她带着情绪强度演唱，双臂张开。绕着她做动态跟拍环绕。黄金时刻的逆光、镜头眩光、鲜明的暖色调。"

结果。 裙摆物理表现真实。环绕跟拍流畅。整段旋转中面孔保持一致。头发运动方向与风向匹配。生成了氛围化的配乐音轨。约 75 秒。

4. 人物动态肖像

"一位年迈的日本工匠在传统木质工坊中，晨光透过纸障子洒入。他缓缓举起一只手工烧制的陶土茶碗，带着安静的自豪审视它。他饱经风霜的双手轻柔旋转着茶碗。先是双手特写，再缓慢上摇露出他的脸。侘寂美学，温暖的自然光，纪录片式的人物质感。"

结果。 手指数量正确。关节运动自然。从手到脸的上摇流畅。透过障子的光线真实。微弱的工坊环境声。皮肤纹理逼真。约 80 秒。

5. 自然与风光

"无人机航拍镜头滑过日出时分雾气缭绕的山谷。云雾在翠绿的山峰间层层翻滚。下方一条蜿蜒河流反射着金色晨光。鹰群以平视高度掠过画面。平稳前推的运镜，伴随轻微下降。史诗级风光、体积雾、黄金时刻光。"

结果。 独立的雾层营造出可信的纵深。河面反射随相机位置实时更新。色彩平衡有力。体积雾渲染干净。风声与鸟鸣音轨齐备。约 55 秒——6 个里最快的。

6. 二次元与奇幻

"一位动漫风格的女战士公主站在悬崖之巅，俯瞰夜色中燃烧的中世纪城池。她长长的银发与绯红色披风在风中翻飞。她拔出一把发着蓝光的武士刀，电流沿刀刃噼啪作响。樱花花瓣在她周围旋舞。低角度动态运镜并缓慢推近。赛璐璐上色风格，鲜亮的霓虹点缀，戏剧性的速度线。"

结果。 全程保持赛璐璐上色风格。拔刀动作流畅。电流特效自然融入。樱花独立运动。火光与披风产生光影互动。戏剧性的挥刀音效齐备。约 70 秒。

常见错误与修复

问题	原因	修复
提示词被拒	出现面孔关键词或语义模糊	删除显式的面孔描述；改用 `@image` 参考
出现黑帧	提示词过于复杂	把动作切成每 4–5 秒一个；测试时降低分辨率
角色面孔在镜头之间变化	没有一致的参考	在时间线的每一个镜头里钉同一个 `@image1`
音画不同步	联合扩散对位错配	关掉音频重新生成，再单独叠加音轨
手部或手指畸变	复杂的手部交互缺乏参考	加一张目标手部姿态的参考图
"AI 感"质感	过度依赖风格关键词	加入物理细节——材质、灯光、镜头类型

Seedance 2.0 对比 Seedance 1.0

如果你用过 1.0，会发现 2.0 与之的差距比版本号暗示的要大得多。

特性	1.0	2.0
架构	分离式管线	统一扩散 Transformer
图像输入	1 张可选	最多 9 张，可通过 `@tag` 寻址
视频输入	无	最多 3 段
音频输入	无	最多 3 段
原生音频输出	无	有
最高分辨率	1080p	2K
时长	5–10 秒	4–15 秒
多镜头	基础	时间线分镜，跨镜头一致性
手部质量	经常出现伪影	显著改善
视频内编辑	不支持	支持——角色 / 物体替换
一次成片可用率	约 60%	90%+

何时该选别的模型

Seedance 2.0 并不是每种简报的最优解。

需求	更合适的选择
广播级 4K 60fps	Veo 3
帧级运动指令	Runway Gen-4.5
最便宜的带音频 720p 社交短片	Grok Imagine
最快的迭代回路	HappyHorse 1.0
重度参数化的镜头控制	PixVerse V6
长时间一镜到底的场景	Sora 2

OmniArt 上的计费

Seedance 2.0 在 OmniArt 视频工作区中按积分计费。Standard 720p 每秒 30 积分；Fast 720p 每秒 20 积分。Ultra 会员在两种模式下都享受 40% 的积分折扣。粗算一下迭代成本：一段 5 秒的 Standard 720p 片段是 150 积分，一段 5 秒的 Fast 720p 片段是 100 积分。

Warning

截至本文撰写时，ByteDance 尚未对 Seedance 2.0 输出物的商业使用权做出明确公开说明。对于高风险的商业项目，请在交付前再次核对平台的授权条款。

在 OmniArt 上开始使用

Seedance 2.0 与 PixVerse V6、BACH、Sora 2、Veo 3、Kling 3.0、HappyHorse 1.0、Grok Imagine 一起，位于 OmniArt 的视频工作区里。同一份积分余额、同一套参考上传、同一套提示词语法。

建议先用上面的电影感场景提示词跑一遍，体会多参考的工作流，再切到音乐视频那条简报，去测试运动中的面孔一致性。

如果你正在 Seedance 2.0 与 HappyHorse 1.0 之间做选择，HappyHorse 1 对比 Seedance 2 的实测一镜一镜地走完了取舍。如果是更长的叙事段落，BACH 摄影指导指南是更合适的起点。

Start creating

准备开始创作？

使用 AI 开始生成精彩内容