tutorial教程与操作指南14 分钟阅读

Eleven v3 音频标签完全指南：掌控 AI 语音表演

全面讲解 ElevenLabs v3 音频标签用法——情绪、语气、口音与角色方括号指令——在 OmniArt 上调校极具表现力的 AI 语音表演。

OmniArt 团队2026年6月13日

大多数文字转语音工具每次都以同样的方式朗读脚本：平铺直叙、节奏均匀，略带机器感。Eleven v3 不同。它能理解脚本的情感纹理，而借助音频标签，你可以向它发出明确的导演指令——就像配音导演在录制前向演员发出提示一样。

音频标签是直接嵌入脚本的方括号短词或短语。它们告诉模型如何演绎下一句台词：低声耳语、大声呼喊、带上英国口音，或在句子中间用一声叹气打断。本指南涵盖 OmniArt 上可用的全部标签词汇、如何撰写使用标签的多角色脚本，以及如何判断 Eleven v3 是否是当前任务的最佳模型。

什么是音频标签？

音频标签是插入方括号中的内联导演指令——[whispers]（低语）、[excited]（兴奋）、[British accent]（英国口音）——放置在脚本中希望改变演绎方式的位置。Eleven v3 将它们解读为指令而非待朗读的文字，并相应调整语气、节奏和情感。

与旧版文字转语音的关键区别在于：v3 能解读上下文。它不是简单地套用一个全局滤镜，而是将标签与周围句子综合权衡——因此 [sighs] 接在"我想你是对的"前面，和接在"好吧，走吧"前面，会产生截然不同的效果。正是这种上下文敏感性，使得加过标签的脚本听起来像是被导演过的，而不是被机器处理过的。

提示

将标签紧接着放在它所影响的短语之前。段落开头的标签会一直控制演绎，直到下一个标签或自然的语气重置。

音频标签词汇表

下表整理了所有主要标签类别及示例。这些是 Eleven v3 在 OmniArt 上能稳定响应的指令。

情绪标签

标签	效果
`[excited]`	能量提升、节奏加快、音色更明亮
`[sad]`	节奏变慢、音调降低、演绎更内敛
`[angry]`	短促有力、音量上升
`[nervous]`	节奏略显不均、整体音量较低
`[happy]`	温暖上扬、共鸣开放
`[tired]`	节奏减慢、音色更平、气息减弱
`[afraid]`	紧绷克制、气息收缩
`[disgusted]`	情感平淡、略带蔑视
`[surprised]`	音调起始更高、短句

演绎标签

标签	效果
`[whispers]`	气声、音量低、亲密感
`[shouting]`	音量高、投射感强、共鸣宽广
`[pause]`	在此处插入自然停顿
`[slowly]`	延长节奏而不改变音调
`[fast]`	压缩节奏、能量提升
`[sighs]`	将可听见的呼气声编织进短语开头
`[laughs]`	在台词前或台词中加入短暂的自然笑声
`[crying]`	演绎带有哽咽、湿润的质感

角色与人设标签

标签	效果
`[pirate voice]`	戏剧化、低吼、夸张的韵律
`[robot voice]`	短促、单调、合成质感
`[narrator]`	权威、沉稳、纪录片风格
`[announcer]`	投射感强、正式、广播质感
`[childlike]`	音调较高、短句、活泼

口音标签

标签	效果
`[British accent]`	标准英式发音（Received Pronunciation）风格
`[Southern US accent]`	温暖、拉长的元音
`[Australian accent]`	升调句末语调
`[Irish accent]`	旋律感强、独特的元音圆润化
`[New York accent]`	辅音短促、鼻音明显

说明

口音标签叠加在基础音色预设之上。效果因预设而异——某些音色对口音标签的响应比其他音色更强烈。在正式录制长脚本前，先用短句测试一下效果。

标签速查表

用途	示例标签
情绪——正向	`[excited]`、`[happy]`、`[surprised]`
情绪——负向	`[sad]`、`[angry]`、`[tired]`、`[afraid]`、`[nervous]`
音量 / 投射	`[whispers]`、`[shouting]`
节奏	`[slowly]`、`[fast]`
自然音效	`[sighs]`、`[laughs]`、`[crying]`、`[pause]`
角色风格	`[pirate voice]`、`[robot voice]`、`[narrator]`、`[announcer]`、`[childlike]`
口音	`[British accent]`、`[Southern US accent]`、`[Australian accent]`、`[Irish accent]`、`[New York accent]`

加标签脚本写作：两个示例

示例 1——情感旁白

这是一段有声书章节的开场。标签随场景变化而切换情绪。

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

[narrator] 标签从一开始就确立了沉稳有度的风格。[slowly] 配合 [pause] 制造出戏剧性的空间感。[tired] 拖沉了演绎，之后 [whispers] 将音量拉低，营造亲密感。[sighs] 加入了真实的呼气声，让最后一句话充满了情感重量。

示例 2——双角色对话

Eleven v3 可以在单次生成中处理多角色对读。使用角色标签和演绎标签来区分每个声音。

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

提示

多角色脚本中，建议选择基础音域明显不同的两款音色预设——一款低沉，一款明亮——即便在音频输出中没有视觉角色标签，角色区分依然清晰可辨。

如何在 OmniArt 上使用音频标签

前往音频模式，选择"语音"选项卡。
在模型菜单中选择 Eleven v3。STARTER 套餐及以上均可使用。
选择音色预设。 OmniArt 提供 353 款精选语音，覆盖多个语音模型。按性别和风格浏览——深沉、权威的音色适合旁白；明亮的中音域音色对强情绪标签的响应更佳。
将加好标签的脚本粘贴到提示词输入框。 Eleven v3 每次生成最多支持 5,000 个字符。
设置语言以匹配脚本内容。
生成并试听。 如果某个标签效果过强或过弱，调整标签位置、增加重置标签，或换一款音色预设。

计费方式：每开始一个 50 字符块消耗 1 点积分。500 字符的脚本消耗 10 点积分；5,000 字符的脚本消耗 100 点积分。不足 50 字符的块向上取整。

警告

OmniArt 的 Eleven v3 不提供音色克隆、语速滑块或音调控制功能。所有演绎变化均来自脚本文字和音频标签。

Eleven v3 与其他语音模型的选择

OmniArt 上提供三款 ElevenLabs 模型，以下是各自的适用场景。

使用场景	最佳模型	原因
情绪变化丰富的表演——角色需要大笑、哭泣、怒喊	Eleven v3	音频标签与上下文感知提供最强的表现力
稳定的多语言旁白（50+ 种语言）	Eleven Multilingual v2	跨语言表现均衡；每次生成最多 10,000 字符
长脚本、需要快速出结果	Eleven Turbo v2.5	低延迟；每次生成最多 40,000 字符，每 100 字符 1 点积分
预算有限或 FREE 套餐用户	MiniMax Speech 2.8 HD / Turbo	免费套餐可用；HD 版适合成品质量，Turbo 版适合草稿

一个实用的判断框架：当脚本需要一场表演、演绎本身承载意义时，选 v3；当目标是跨多语言清晰易懂的旁白时，选 Multilingual v2；当脚本较长、情感相对中性、需要快速出结果时，选 Turbo v2.5。

各模型的完整规格说明请参见专属页面：Eleven v3、Eleven Multilingual v2、Eleven Turbo v2.5。

常见标签错误及规避方法

过度标签： 每句话都加标签会拉平变化效果。情绪标签在一段自然无标记的演绎之后出现时，冲击力会更强。把标签留给情绪峰值和过渡节点，而不是作为持续覆盖层。

矛盾标签： [shouting] 后面紧跟 [whispers]，中间没有任何句子，可能令模型困惑。在两个强烈对比的标签之间，保留一句中性演绎作为过渡。

使用口音标签前未测试： 口音效果取决于基础音色预设。在将口音标签应用于整篇长脚本前，先用 50 字符的测试句验证效果。

标签嵌在词语中间： 标签必须放在完整的词语或标点符号之间，不能嵌入词语内部。Incre[excited]dible 无法正确解析——应写成 [excited] Incredible。

最受益的使用场景

多角色有声书： 音色预设与演绎标签的组合，既能将旁白与角色区分开来，又能为每个角色赋予一致的情感特征。关于完整音频制作流程，可参阅 MiniMax Speech 配音指南，了解类似的工作流程。

游戏对话与互动小说： 短促有力的台词加上强标签——[afraid] Stay back!（别过来！）、[laughs] You call that a plan?（你管这叫计划？）——无需专业配音演员即可打造令人信服的 NPC。

带情感起伏的 YouTube 旁白： 一个在戏剧性揭示、幽默插曲和安静沉思之间切换的纪录片或解说视频，非常适合通过标签指引演绎转变。标注好过渡节点，节奏自然成型。

对话驱动的媒体与预告片： 单次生成中包含两到三个角色对读，每个角色通过音色预设和标签加以区分，一步完成对话场景的制作。

在 OmniArt 上开始体验

培养对 v3 能力的感知，最快的方式是拿一段你熟悉的脚本——一段独白、一个短篇故事的开场、几行游戏对话——标注两遍：一遍轻标注，一遍大幅度转换演绎。两份生成结果对比一听，差异往往在第一句话就显而易见。

打开 OmniArt 上的 Eleven v3 并粘贴你的第一份加标签脚本。从上方的情感旁白示例开始，换一款音色预设，看看会有什么变化。一旦熟悉了标签词汇，这个模型就能像真实录音现场一样灵活响应你的导演意图——而且不需要录音棚。

关于 OmniArt 上所有可用音频模型（包括音乐和音效）的全面介绍，请参见音频工作区完整指南。

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始