Аудио-теги Eleven v3: как управлять выразительными ИИ-голосами
Узнайте, как использовать аудио-теги ElevenLabs v3 — эмоции, подача, акцент и персонаж в квадратных скобках — для точного управления выразительными ИИ-голосами на OmniArt.

Большинство инструментов преобразования текста в речь читают сценарий одинаково каждый раз: монотонно, размеренно и слегка роботоподобно. Eleven v3 — другой. Он понимает эмоциональную текстуру вашего текста, а аудио-теги позволяют давать ему явные указания — так же, как звукорежиссёр инструктирует актёра перед записью.
Аудио-теги — это короткие слова или фразы в квадратных скобках, встроенные прямо в сценарий. Они указывают модели, как подать следующую реплику: прошептать, прокричать, окрасить британским акцентом или оборвать на середине фразы вздохом. В этом руководстве рассматривается полный словарь тегов, доступных на OmniArt, методика написания многоперсонажных сценариев с их использованием и критерии выбора Eleven v3 для конкретной задачи.
Что такое аудио-теги?
Аудио-теги — это встроенные режиссёрские указания в квадратных скобках — [whispers], [excited], [British accent] — в том месте сценария, где нужно изменить подачу. Eleven v3 интерпретирует их как инструкции, а не как слова для произнесения, и подстраивает тон, темп и интонацию соответствующим образом.
Ключевое отличие от старых систем синтеза речи состоит в том, что v3 учитывает контекст. Он не применяет универсальный фильтр: он соотносит тег с окружающим предложением, поэтому [sighs] перед «I suppose you're right» даёт иной результат, чем [sighs] перед «Fine, let's go.» Именно эта чувствительность к контексту делает сценарии с тегами направленными, а не просто обработанными.
Совет
Словарь аудио-тегов
В таблице ниже систематизированы основные категории тегов с примерами. Именно эти указания Eleven v3 надёжно распознаёт на OmniArt.
Теги эмоций
| Тег | Эффект |
|---|---|
[excited] | Повышенная энергия, более быстрый темп, яркий тон |
[sad] | Медленная, низкая, сдержанная подача |
[angry] | Отрывистый, напористый, повышенный голос |
[nervous] | Слегка неровный темп, приглушённый голос |
[happy] | Тёплый, живой, открытая резонансность |
[tired] | Медленнее, монотоннее, меньше усилий |
[afraid] | Напряжённый, сдержанный, приглушённое дыхание |
[disgusted] | Бесцветная интонация с лёгкой брезгливостью |
[surprised] | Высокий тон в начале фразы, укороченная реплика |
Теги подачи
| Тег | Эффект |
|---|---|
[whispers] | Шёпот, низкая громкость, интимность |
[shouting] | Высокая громкость, проекция, широкая резонансность |
[pause] | Естественная пауза в указанном месте |
[slowly] | Растянутый темп без изменения тональности |
[fast] | Сжатый темп, повышенная энергия |
[sighs] | Слышимый выдох в начале фразы |
[laughs] | Короткий естественный смех перед репликой или в её ходе |
[crying] | Прерывистое, влажное качество голоса |
Теги персонажа и роли
| Тег | Эффект |
|---|---|
[pirate voice] | Театральный, рычащий, утрированная каденция |
[robot voice] | Отрывистый, монотонный, синтетическое звучание |
[narrator] | Авторитетный, размеренный, документальный регистр |
[announcer] | Проекционный, официальный, вещательное качество |
[childlike] | Высокий тон, короткие фразы, игривость |
Теги акцентов
| Тег | Эффект |
|---|---|
[British accent] | Качество Received Pronunciation |
[Southern US accent] | Тёплые, тянущиеся гласные |
[Australian accent] | Восходящая интонация в конце фразы |
[Irish accent] | Мелодичный, характерное округление гласных |
[New York accent] | Чёткие согласные, носовое среднее регистро |
Примечание
Таблица быстрого доступа
| Цель | Примеры тегов |
|---|---|
| Эмоция — позитивная | [excited], [happy], [surprised] |
| Эмоция — негативная | [sad], [angry], [tired], [afraid], [nervous] |
| Громкость / проекция | [whispers], [shouting] |
| Темп | [slowly], [fast] |
| Естественные звуки | [sighs], [laughs], [crying], [pause] |
| Регистр персонажа | [pirate voice], [robot voice], [narrator], [announcer], [childlike] |
| Акцент | [British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent] |
Написание сценария с тегами: два примера
Пример 1 — эмоциональная начитка
Это краткое начало для главы аудиокниги. Теги меняют настроение по ходу сцены.
[narrator] The city had been quiet for three days.
[slowly] Not the quiet of peace — [pause] the quiet of waiting.
[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.
[whispers] They had to be out there somewhere.
[sighs] She just needed one more lead.
Тег [narrator] задаёт размеренный регистр с самого начала. [slowly] в сочетании с [pause] создаёт драматическое пространство. [tired] утяжеляет подачу, после чего [whispers] переводит её в приглушённое, интимное звучание. [sighs] добавляет физическое дыхание, благодаря которому последняя фраза звучит выстраданно.
Пример 2 — диалог двух персонажей
Eleven v3 способен обрабатывать многоголосые чтения из одного промта. Используйте метки персонажей и теги подачи для разграничения голосов.
CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.
FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.
CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.
FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.
Совет
Как использовать аудио-теги на OmniArt
- Перейдите в аудио-режим и выберите вкладку «Речь» (Speech).
- Выберите Eleven v3 в меню моделей. Доступно на тарифе STARTER и выше.
- Выберите пресет голоса. OmniArt предлагает 353 отобранных голоса для речевых моделей. Просматривайте по полу и стилю — более низкие, авторитетные пресеты хорошо подходят для начитки; более яркие, средние пресеты отзывчивее к сильным тегам эмоций.
- Вставьте сценарий с тегами в поле промта. Eleven v3 принимает до 5 000 символов на генерацию.
- Установите язык в соответствии со сценарием.
- Сгенерируйте и прослушайте. Если тег применяется избыточно или недостаточно — откорректируйте его позицию, добавьте новый тег для сброса подачи или попробуйте другой пресет голоса.
Тарификация: 1 кредит за каждый начатый блок из 50 символов. Сценарий на 500 символов стоит 10 кредитов; на 5 000 символов — 100 кредитов. Неполные блоки из 50 символов округляются вверх.
Предупреждение
Когда использовать Eleven v3, а когда другие речевые модели
На OmniArt доступны три модели ElevenLabs. Рекомендации по выбору:
| Сценарий | Лучшая модель | Обоснование |
|---|---|---|
| Эмоционально разнообразная подача — персонаж, который смеётся, плачет, кричит | Eleven v3 | Аудио-теги и контекстная чувствительность обеспечивают наибольший выразительный диапазон |
| Стабильная многоязычная начитка (50+ языков) | Eleven Multilingual v2 | Ровная, последовательная подача на многих языках; 10 000 символов на генерацию |
| Длинные сценарии с быстрой выдачей | Eleven Turbo v2.5 | Низкая задержка; 40 000 символов на генерацию по 1 кредиту за 100 символов |
| Экономичная генерация или тариф FREE | MiniMax Speech 2.8 HD / Turbo | Доступно на тарифе FREE; HD — для финального качества, Turbo — для черновиков |
Полезная ментальная модель: используйте v3, когда сценарий требует игры и сама подача несёт смысловую нагрузку. Используйте Multilingual v2, когда цель — чёткая начитка, удобная для восприятия на разных языках. Используйте Turbo v2.5, когда у вас длинный, относительно нейтральный сценарий и нужны быстрые результаты.
Полные спецификации — на страницах моделей: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.
Распространённые ошибки при расстановке тегов
Избыточная разметка: если тег стоит в каждом предложении, вариативность выравнивается. Теги эмоций работают сильнее, когда появляются после отрезка естественной, немаркированной подачи. Используйте их для пиков и переходов, а не как постоянный слой.
Противоречивые теги: [shouting] сразу за которым следует [whispers] без промежуточного предложения может сбить модель с толку. Оставляйте хотя бы одно нейтральное предложение между сильными контрастами.
Теги акцентов без предварительного теста: результат зависит от базового пресета голоса. Прогоните тестовую строку из 50 символов, прежде чем применять тег акцента ко всему длинному сценарию.
Теги внутри слов: теги должны стоять между целыми словами или знаками препинания, а не внутри слова. Incre[excited]dible не распознается корректно — пишите [excited] Incredible.
Сценарии, где результат наиболее заметен
Аудиокниги с несколькими персонажами: сочетание пресетов голосов и тегов подачи позволяет разграничить рассказчика и персонажей, наделив каждого стабильной эмоциональной интонацией. Сопоставимый рабочий процесс для полноценной аудиопостановки описан в руководстве по озвучке MiniMax Speech.
Диалоги в играх и интерактивной прозе: короткие, ёмкие реплики с выразительными тегами — [afraid] Stay back!, [laughs] You call that a plan? — создают правдоподобных NPC без заказных актёров озвучки.
Закадровый голос для YouTube с широким эмоциональным диапазоном: документальный или обучающий ролик, чередующий драматические открытия, юмористические отступления и задумчивые паузы, выигрывает от смен подачи. Пометьте переходы — и темп сложится сам собой.
Диалоговые медиа и трейлеры: два-три персонажных прочтения из одной генерации, разграниченные пресетами голосов и тегами, упаковывают диалоговую сцену в один шаг рабочего процесса.
Начните на OmniArt
Самый быстрый способ почувствовать возможности v3 — взять хорошо знакомый сценарий — монолог, начало рассказа, несколько реплик из игры — и разметить его дважды: сначала с минимальной разметкой, затем с агрессивными сменами подачи. Сгенерируйте оба варианта и сравните. Разница между слегка режиссированным и полностью режиссированным сценарием обычно очевидна с первой фразы.
Откройте Eleven v3 на OmniArt и вставьте свой первый сценарий с тегами. Начните с примера эмоциональной начитки выше, смените пресет голоса и посмотрите, что изменится. Как только словарь тегов станет привычным, модель будет реагировать так же чутко, как настоящая запись в студии, — без студии.
Для полного обзора всех аудиомоделей на OmniArt, включая музыку и звуковые эффекты, смотрите полное руководство по аудиопространству.
Готовы создавать?
Начните генерировать впечатляющий контент с ИИ