Eleven v3 音频标签完全指南:掌控 AI 语音表演
全面讲解 ElevenLabs v3 音频标签用法——情绪、语气、口音与角色方括号指令——在 OmniArt 上调校极具表现力的 AI 语音表演。

大多数文字转语音工具每次都以同样的方式朗读脚本:平铺直叙、节奏均匀,略带机器感。Eleven v3 不同。它能理解脚本的情感纹理,而借助音频标签,你可以向它发出明确的导演指令——就像配音导演在录制前向演员发出提示一样。
音频标签是直接嵌入脚本的方括号短词或短语。它们告诉模型如何演绎下一句台词:低声耳语、大声呼喊、带上英国口音,或在句子中间用一声叹气打断。本指南涵盖 OmniArt 上可用的全部标签词汇、如何撰写使用标签的多角色脚本,以及如何判断 Eleven v3 是否是当前任务的最佳模型。
什么是音频标签?
音频标签是插入方括号中的内联导演指令——[whispers](低语)、[excited](兴奋)、[British accent](英国口音)——放置在脚本中希望改变演绎方式的位置。Eleven v3 将它们解读为指令而非待朗读的文字,并相应调整语气、节奏和情感。
与旧版文字转语音的关键区别在于:v3 能解读上下文。它不是简单地套用一个全局滤镜,而是将标签与周围句子综合权衡——因此 [sighs] 接在"我想你是对的"前面,和接在"好吧,走吧"前面,会产生截然不同的效果。正是这种上下文敏感性,使得加过标签的脚本听起来像是被导演过的,而不是被机器处理过的。
提示
音频标签词汇表
下表整理了所有主要标签类别及示例。这些是 Eleven v3 在 OmniArt 上能稳定响应的指令。
情绪标签
| 标签 | 效果 |
|---|---|
[excited] | 能量提升、节奏加快、音色更明亮 |
[sad] | 节奏变慢、音调降低、演绎更内敛 |
[angry] | 短促有力、音量上升 |
[nervous] | 节奏略显不均、整体音量较低 |
[happy] | 温暖上扬、共鸣开放 |
[tired] | 节奏减慢、音色更平、气息减弱 |
[afraid] | 紧绷克制、气息收缩 |
[disgusted] | 情感平淡、略带蔑视 |
[surprised] | 音调起始更高、短句 |
演绎标签
| 标签 | 效果 |
|---|---|
[whispers] | 气声、音量低、亲密感 |
[shouting] | 音量高、投射感强、共鸣宽广 |
[pause] | 在此处插入自然停顿 |
[slowly] | 延长节奏而不改变音调 |
[fast] | 压缩节奏、能量提升 |
[sighs] | 将可听见的呼气声编织进短语开头 |
[laughs] | 在台词前或台词中加入短暂的自然笑声 |
[crying] | 演绎带有哽咽、湿润的质感 |
角色与人设标签
| 标签 | 效果 |
|---|---|
[pirate voice] | 戏剧化、低吼、夸张的韵律 |
[robot voice] | 短促、单调、合成质感 |
[narrator] | 权威、沉稳、纪录片风格 |
[announcer] | 投射感强、正式、广播质感 |
[childlike] | 音调较高、短句、活泼 |
口音标签
| 标签 | 效果 |
|---|---|
[British accent] | 标准英式发音(Received Pronunciation)风格 |
[Southern US accent] | 温暖、拉长的元音 |
[Australian accent] | 升调句末语调 |
[Irish accent] | 旋律感强、独特的元音圆润化 |
[New York accent] | 辅音短促、鼻音明显 |
说明
标签速查表
| 用途 | 示例标签 |
|---|---|
| 情绪——正向 | [excited]、[happy]、[surprised] |
| 情绪——负向 | [sad]、[angry]、[tired]、[afraid]、[nervous] |
| 音量 / 投射 | [whispers]、[shouting] |
| 节奏 | [slowly]、[fast] |
| 自然音效 | [sighs]、[laughs]、[crying]、[pause] |
| 角色风格 | [pirate voice]、[robot voice]、[narrator]、[announcer]、[childlike] |
| 口音 | [British accent]、[Southern US accent]、[Australian accent]、[Irish accent]、[New York accent] |
加标签脚本写作:两个示例
示例 1——情感旁白
这是一段有声书章节的开场。标签随场景变化而切换情绪。
[narrator] The city had been quiet for three days.
[slowly] Not the quiet of peace — [pause] the quiet of waiting.
[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.
[whispers] They had to be out there somewhere.
[sighs] She just needed one more lead.
[narrator] 标签从一开始就确立了沉稳有度的风格。[slowly] 配合 [pause] 制造出戏剧性的空间感。[tired] 拖沉了演绎,之后 [whispers] 将音量拉低,营造亲密感。[sighs] 加入了真实的呼气声,让最后一句话充满了情感重量。
示例 2——双角色对话
Eleven v3 可以在单次生成中处理多角色对读。使用角色标签和演绎标签来区分每个声音。
CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.
FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.
CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.
FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.
提示
如何在 OmniArt 上使用音频标签
- 前往 音频模式,选择"语音"选项卡。
- 在模型菜单中选择 Eleven v3。STARTER 套餐及以上均可使用。
- 选择音色预设。 OmniArt 提供 353 款精选语音,覆盖多个语音模型。按性别和风格浏览——深沉、权威的音色适合旁白;明亮的中音域音色对强情绪标签的响应更佳。
- 将加好标签的脚本粘贴到提示词输入框。 Eleven v3 每次生成最多支持 5,000 个字符。
- 设置语言以匹配脚本内容。
- 生成并试听。 如果某个标签效果过强或过弱,调整标签位置、增加重置标签,或换一款音色预设。
计费方式:每开始一个 50 字符块消耗 1 点积分。500 字符的脚本消耗 10 点积分;5,000 字符的脚本消耗 100 点积分。不足 50 字符的块向上取整。
警告
Eleven v3 与其他语音模型的选择
OmniArt 上提供三款 ElevenLabs 模型,以下是各自的适用场景。
| 使用场景 | 最佳模型 | 原因 |
|---|---|---|
| 情绪变化丰富的表演——角色需要大笑、哭泣、怒喊 | Eleven v3 | 音频标签与上下文感知提供最强的表现力 |
| 稳定的多语言旁白(50+ 种语言) | Eleven Multilingual v2 | 跨语言表现均衡;每次生成最多 10,000 字符 |
| 长脚本、需要快速出结果 | Eleven Turbo v2.5 | 低延迟;每次生成最多 40,000 字符,每 100 字符 1 点积分 |
| 预算有限或 FREE 套餐用户 | MiniMax Speech 2.8 HD / Turbo | 免费套餐可用;HD 版适合成品质量,Turbo 版适合草稿 |
一个实用的判断框架:当脚本需要一场表演、演绎本身承载意义时,选 v3;当目标是跨多语言清晰易懂的旁白时,选 Multilingual v2;当脚本较长、情感相对中性、需要快速出结果时,选 Turbo v2.5。
各模型的完整规格说明请参见专属页面:Eleven v3、Eleven Multilingual v2、Eleven Turbo v2.5。
常见标签错误及规避方法
过度标签: 每句话都加标签会拉平变化效果。情绪标签在一段自然无标记的演绎之后出现时,冲击力会更强。把标签留给情绪峰值和过渡节点,而不是作为持续覆盖层。
矛盾标签: [shouting] 后面紧跟 [whispers],中间没有任何句子,可能令模型困惑。在两个强烈对比的标签之间,保留一句中性演绎作为过渡。
使用口音标签前未测试: 口音效果取决于基础音色预设。在将口音标签应用于整篇长脚本前,先用 50 字符的测试句验证效果。
标签嵌在词语中间: 标签必须放在完整的词语或标点符号之间,不能嵌入词语内部。Incre[excited]dible 无法正确解析——应写成 [excited] Incredible。
最受益的使用场景
多角色有声书: 音色预设与演绎标签的组合,既能将旁白与角色区分开来,又能为每个角色赋予一致的情感特征。关于完整音频制作流程,可参阅 MiniMax Speech 配音指南,了解类似的工作流程。
游戏对话与互动小说: 短促有力的台词加上强标签——[afraid] Stay back!(别过来!)、[laughs] You call that a plan?(你管这叫计划?)——无需专业配音演员即可打造令人信服的 NPC。
带情感起伏的 YouTube 旁白: 一个在戏剧性揭示、幽默插曲和安静沉思之间切换的纪录片或解说视频,非常适合通过标签指引演绎转变。标注好过渡节点,节奏自然成型。
对话驱动的媒体与预告片: 单次生成中包含两到三个角色对读,每个角色通过音色预设和标签加以区分,一步完成对话场景的制作。
在 OmniArt 上开始体验
培养对 v3 能力的感知,最快的方式是拿一段你熟悉的脚本——一段独白、一个短篇故事的开场、几行游戏对话——标注两遍:一遍轻标注,一遍大幅度转换演绎。两份生成结果对比一听,差异往往在第一句话就显而易见。
打开 OmniArt 上的 Eleven v3 并粘贴你的第一份加标签脚本。从上方的情感旁白示例开始,换一款音色预设,看看会有什么变化。一旦熟悉了标签词汇,这个模型就能像真实录音现场一样灵活响应你的导演意图——而且不需要录音棚。
关于 OmniArt 上所有可用音频模型(包括音乐和音效)的全面介绍,请参见音频工作区完整指南。
准备好创作了吗?
开始用 AI 生成精彩内容