tutorial教程与操作指南14 分钟阅读

Eleven v3 音频标签完全指南:掌控 AI 语音表演

全面讲解 ElevenLabs v3 音频标签用法——情绪、语气、口音与角色方括号指令——在 OmniArt 上调校极具表现力的 AI 语音表演。

OmniArt 团队
Eleven v3 音频标签完全指南:掌控 AI 语音表演

大多数文字转语音工具每次都以同样的方式朗读脚本:平铺直叙、节奏均匀,略带机器感。Eleven v3 不同。它能理解脚本的情感纹理,而借助音频标签,你可以向它发出明确的导演指令——就像配音导演在录制前向演员发出提示一样。

音频标签是直接嵌入脚本的方括号短词或短语。它们告诉模型如何演绎下一句台词:低声耳语、大声呼喊、带上英国口音,或在句子中间用一声叹气打断。本指南涵盖 OmniArt 上可用的全部标签词汇、如何撰写使用标签的多角色脚本,以及如何判断 Eleven v3 是否是当前任务的最佳模型。

什么是音频标签?

音频标签是插入方括号中的内联导演指令——[whispers](低语)、[excited](兴奋)、[British accent](英国口音)——放置在脚本中希望改变演绎方式的位置。Eleven v3 将它们解读为指令而非待朗读的文字,并相应调整语气、节奏和情感。

与旧版文字转语音的关键区别在于:v3 能解读上下文。它不是简单地套用一个全局滤镜,而是将标签与周围句子综合权衡——因此 [sighs] 接在"我想你是对的"前面,和接在"好吧,走吧"前面,会产生截然不同的效果。正是这种上下文敏感性,使得加过标签的脚本听起来像是被导演过的,而不是被机器处理过的。

提示

将标签紧接着放在它所影响的短语之前。段落开头的标签会一直控制演绎,直到下一个标签或自然的语气重置。

音频标签词汇表

下表整理了所有主要标签类别及示例。这些是 Eleven v3 在 OmniArt 上能稳定响应的指令。

情绪标签

标签效果
[excited]能量提升、节奏加快、音色更明亮
[sad]节奏变慢、音调降低、演绎更内敛
[angry]短促有力、音量上升
[nervous]节奏略显不均、整体音量较低
[happy]温暖上扬、共鸣开放
[tired]节奏减慢、音色更平、气息减弱
[afraid]紧绷克制、气息收缩
[disgusted]情感平淡、略带蔑视
[surprised]音调起始更高、短句

演绎标签

标签效果
[whispers]气声、音量低、亲密感
[shouting]音量高、投射感强、共鸣宽广
[pause]在此处插入自然停顿
[slowly]延长节奏而不改变音调
[fast]压缩节奏、能量提升
[sighs]将可听见的呼气声编织进短语开头
[laughs]在台词前或台词中加入短暂的自然笑声
[crying]演绎带有哽咽、湿润的质感

角色与人设标签

标签效果
[pirate voice]戏剧化、低吼、夸张的韵律
[robot voice]短促、单调、合成质感
[narrator]权威、沉稳、纪录片风格
[announcer]投射感强、正式、广播质感
[childlike]音调较高、短句、活泼

口音标签

标签效果
[British accent]标准英式发音(Received Pronunciation)风格
[Southern US accent]温暖、拉长的元音
[Australian accent]升调句末语调
[Irish accent]旋律感强、独特的元音圆润化
[New York accent]辅音短促、鼻音明显

说明

口音标签叠加在基础音色预设之上。效果因预设而异——某些音色对口音标签的响应比其他音色更强烈。在正式录制长脚本前,先用短句测试一下效果。

标签速查表

用途示例标签
情绪——正向[excited][happy][surprised]
情绪——负向[sad][angry][tired][afraid][nervous]
音量 / 投射[whispers][shouting]
节奏[slowly][fast]
自然音效[sighs][laughs][crying][pause]
角色风格[pirate voice][robot voice][narrator][announcer][childlike]
口音[British accent][Southern US accent][Australian accent][Irish accent][New York accent]

加标签脚本写作:两个示例

示例 1——情感旁白

这是一段有声书章节的开场。标签随场景变化而切换情绪。

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

[narrator] 标签从一开始就确立了沉稳有度的风格。[slowly] 配合 [pause] 制造出戏剧性的空间感。[tired] 拖沉了演绎,之后 [whispers] 将音量拉低,营造亲密感。[sighs] 加入了真实的呼气声,让最后一句话充满了情感重量。

示例 2——双角色对话

Eleven v3 可以在单次生成中处理多角色对读。使用角色标签和演绎标签来区分每个声音。

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

提示

多角色脚本中,建议选择基础音域明显不同的两款音色预设——一款低沉,一款明亮——即便在音频输出中没有视觉角色标签,角色区分依然清晰可辨。

如何在 OmniArt 上使用音频标签

  1. 前往 音频模式,选择"语音"选项卡。
  2. 在模型菜单中选择 Eleven v3。STARTER 套餐及以上均可使用。
  3. 选择音色预设。 OmniArt 提供 353 款精选语音,覆盖多个语音模型。按性别和风格浏览——深沉、权威的音色适合旁白;明亮的中音域音色对强情绪标签的响应更佳。
  4. 将加好标签的脚本粘贴到提示词输入框。 Eleven v3 每次生成最多支持 5,000 个字符。
  5. 设置语言以匹配脚本内容。
  6. 生成并试听。 如果某个标签效果过强或过弱,调整标签位置、增加重置标签,或换一款音色预设。

计费方式:每开始一个 50 字符块消耗 1 点积分。500 字符的脚本消耗 10 点积分;5,000 字符的脚本消耗 100 点积分。不足 50 字符的块向上取整。

警告

OmniArt 的 Eleven v3 不提供音色克隆、语速滑块或音调控制功能。所有演绎变化均来自脚本文字和音频标签。

Eleven v3 与其他语音模型的选择

OmniArt 上提供三款 ElevenLabs 模型,以下是各自的适用场景。

使用场景最佳模型原因
情绪变化丰富的表演——角色需要大笑、哭泣、怒喊Eleven v3音频标签与上下文感知提供最强的表现力
稳定的多语言旁白(50+ 种语言)Eleven Multilingual v2跨语言表现均衡;每次生成最多 10,000 字符
长脚本、需要快速出结果Eleven Turbo v2.5低延迟;每次生成最多 40,000 字符,每 100 字符 1 点积分
预算有限或 FREE 套餐用户MiniMax Speech 2.8 HD / Turbo免费套餐可用;HD 版适合成品质量,Turbo 版适合草稿

一个实用的判断框架:当脚本需要一场表演、演绎本身承载意义时,选 v3;当目标是跨多语言清晰易懂的旁白时,选 Multilingual v2;当脚本较长、情感相对中性、需要快速出结果时,选 Turbo v2.5。

各模型的完整规格说明请参见专属页面:Eleven v3Eleven Multilingual v2Eleven Turbo v2.5

常见标签错误及规避方法

过度标签: 每句话都加标签会拉平变化效果。情绪标签在一段自然无标记的演绎之后出现时,冲击力会更强。把标签留给情绪峰值和过渡节点,而不是作为持续覆盖层。

矛盾标签: [shouting] 后面紧跟 [whispers],中间没有任何句子,可能令模型困惑。在两个强烈对比的标签之间,保留一句中性演绎作为过渡。

使用口音标签前未测试: 口音效果取决于基础音色预设。在将口音标签应用于整篇长脚本前,先用 50 字符的测试句验证效果。

标签嵌在词语中间: 标签必须放在完整的词语或标点符号之间,不能嵌入词语内部。Incre[excited]dible 无法正确解析——应写成 [excited] Incredible

最受益的使用场景

多角色有声书: 音色预设与演绎标签的组合,既能将旁白与角色区分开来,又能为每个角色赋予一致的情感特征。关于完整音频制作流程,可参阅 MiniMax Speech 配音指南,了解类似的工作流程。

游戏对话与互动小说: 短促有力的台词加上强标签——[afraid] Stay back!(别过来!)、[laughs] You call that a plan?(你管这叫计划?)——无需专业配音演员即可打造令人信服的 NPC。

带情感起伏的 YouTube 旁白: 一个在戏剧性揭示、幽默插曲和安静沉思之间切换的纪录片或解说视频,非常适合通过标签指引演绎转变。标注好过渡节点,节奏自然成型。

对话驱动的媒体与预告片: 单次生成中包含两到三个角色对读,每个角色通过音色预设和标签加以区分,一步完成对话场景的制作。

在 OmniArt 上开始体验

培养对 v3 能力的感知,最快的方式是拿一段你熟悉的脚本——一段独白、一个短篇故事的开场、几行游戏对话——标注两遍:一遍轻标注,一遍大幅度转换演绎。两份生成结果对比一听,差异往往在第一句话就显而易见。

打开 OmniArt 上的 Eleven v3 并粘贴你的第一份加标签脚本。从上方的情感旁白示例开始,换一款音色预设,看看会有什么变化。一旦熟悉了标签词汇,这个模型就能像真实录音现场一样灵活响应你的导演意图——而且不需要录音棚。

关于 OmniArt 上所有可用音频模型(包括音乐和音效)的全面介绍,请参见音频工作区完整指南

准备好创作了吗?

开始用 AI 生成精彩内容

免费开始