tutorialРуководства и инструкции8 мин чтения

Аудио-теги Eleven v3: как управлять выразительными ИИ-голосами

Узнайте, как использовать аудио-теги ElevenLabs v3 — эмоции, подача, акцент и персонаж в квадратных скобках — для точного управления выразительными ИИ-голосами на OmniArt.

Команда OmniArt
Аудио-теги Eleven v3: как управлять выразительными ИИ-голосами

Большинство инструментов преобразования текста в речь читают сценарий одинаково каждый раз: монотонно, размеренно и слегка роботоподобно. Eleven v3 — другой. Он понимает эмоциональную текстуру вашего текста, а аудио-теги позволяют давать ему явные указания — так же, как звукорежиссёр инструктирует актёра перед записью.

Аудио-теги — это короткие слова или фразы в квадратных скобках, встроенные прямо в сценарий. Они указывают модели, как подать следующую реплику: прошептать, прокричать, окрасить британским акцентом или оборвать на середине фразы вздохом. В этом руководстве рассматривается полный словарь тегов, доступных на OmniArt, методика написания многоперсонажных сценариев с их использованием и критерии выбора Eleven v3 для конкретной задачи.

Что такое аудио-теги?

Аудио-теги — это встроенные режиссёрские указания в квадратных скобках — [whispers], [excited], [British accent] — в том месте сценария, где нужно изменить подачу. Eleven v3 интерпретирует их как инструкции, а не как слова для произнесения, и подстраивает тон, темп и интонацию соответствующим образом.

Ключевое отличие от старых систем синтеза речи состоит в том, что v3 учитывает контекст. Он не применяет универсальный фильтр: он соотносит тег с окружающим предложением, поэтому [sighs] перед «I suppose you're right» даёт иной результат, чем [sighs] перед «Fine, let's go.» Именно эта чувствительность к контексту делает сценарии с тегами направленными, а не просто обработанными.

Совет

Ставьте тег непосредственно перед фразой, на которую он должен влиять. Тег в начале абзаца управляет подачей до следующего тега или до естественного тонального сброса.

Словарь аудио-тегов

В таблице ниже систематизированы основные категории тегов с примерами. Именно эти указания Eleven v3 надёжно распознаёт на OmniArt.

Теги эмоций

ТегЭффект
[excited]Повышенная энергия, более быстрый темп, яркий тон
[sad]Медленная, низкая, сдержанная подача
[angry]Отрывистый, напористый, повышенный голос
[nervous]Слегка неровный темп, приглушённый голос
[happy]Тёплый, живой, открытая резонансность
[tired]Медленнее, монотоннее, меньше усилий
[afraid]Напряжённый, сдержанный, приглушённое дыхание
[disgusted]Бесцветная интонация с лёгкой брезгливостью
[surprised]Высокий тон в начале фразы, укороченная реплика

Теги подачи

ТегЭффект
[whispers]Шёпот, низкая громкость, интимность
[shouting]Высокая громкость, проекция, широкая резонансность
[pause]Естественная пауза в указанном месте
[slowly]Растянутый темп без изменения тональности
[fast]Сжатый темп, повышенная энергия
[sighs]Слышимый выдох в начале фразы
[laughs]Короткий естественный смех перед репликой или в её ходе
[crying]Прерывистое, влажное качество голоса

Теги персонажа и роли

ТегЭффект
[pirate voice]Театральный, рычащий, утрированная каденция
[robot voice]Отрывистый, монотонный, синтетическое звучание
[narrator]Авторитетный, размеренный, документальный регистр
[announcer]Проекционный, официальный, вещательное качество
[childlike]Высокий тон, короткие фразы, игривость

Теги акцентов

ТегЭффект
[British accent]Качество Received Pronunciation
[Southern US accent]Тёплые, тянущиеся гласные
[Australian accent]Восходящая интонация в конце фразы
[Irish accent]Мелодичный, характерное округление гласных
[New York accent]Чёткие согласные, носовое среднее регистро

Примечание

Теги акцентов накладываются поверх базового пресета голоса. Результаты варьируются в зависимости от пресета — некоторые голоса реагируют значительно сильнее. Перед применением тега акцента ко всему длинному сценарию сгенерируйте короткую тестовую строку.

Таблица быстрого доступа

ЦельПримеры тегов
Эмоция — позитивная[excited], [happy], [surprised]
Эмоция — негативная[sad], [angry], [tired], [afraid], [nervous]
Громкость / проекция[whispers], [shouting]
Темп[slowly], [fast]
Естественные звуки[sighs], [laughs], [crying], [pause]
Регистр персонажа[pirate voice], [robot voice], [narrator], [announcer], [childlike]
Акцент[British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent]

Написание сценария с тегами: два примера

Пример 1 — эмоциональная начитка

Это краткое начало для главы аудиокниги. Теги меняют настроение по ходу сцены.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

Тег [narrator] задаёт размеренный регистр с самого начала. [slowly] в сочетании с [pause] создаёт драматическое пространство. [tired] утяжеляет подачу, после чего [whispers] переводит её в приглушённое, интимное звучание. [sighs] добавляет физическое дыхание, благодаря которому последняя фраза звучит выстраданно.

Пример 2 — диалог двух персонажей

Eleven v3 способен обрабатывать многоголосые чтения из одного промта. Используйте метки персонажей и теги подачи для разграничения голосов.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Совет

Для многоперсонажных сценариев выбирайте два пресета с отчётливо разными базовыми регистрами — один более низкий, другой более высокий — чтобы различие между персонажами было слышно даже без визуальных меток в аудиовыходе.

Как использовать аудио-теги на OmniArt

  1. Перейдите в аудио-режим и выберите вкладку «Речь» (Speech).
  2. Выберите Eleven v3 в меню моделей. Доступно на тарифе STARTER и выше.
  3. Выберите пресет голоса. OmniArt предлагает 353 отобранных голоса для речевых моделей. Просматривайте по полу и стилю — более низкие, авторитетные пресеты хорошо подходят для начитки; более яркие, средние пресеты отзывчивее к сильным тегам эмоций.
  4. Вставьте сценарий с тегами в поле промта. Eleven v3 принимает до 5 000 символов на генерацию.
  5. Установите язык в соответствии со сценарием.
  6. Сгенерируйте и прослушайте. Если тег применяется избыточно или недостаточно — откорректируйте его позицию, добавьте новый тег для сброса подачи или попробуйте другой пресет голоса.

Тарификация: 1 кредит за каждый начатый блок из 50 символов. Сценарий на 500 символов стоит 10 кредитов; на 5 000 символов — 100 кредитов. Неполные блоки из 50 символов округляются вверх.

Предупреждение

OmniArt не предоставляет клонирование голоса, регулятор скорости или управление высотой тона для Eleven v3. Все вариации подачи определяются исключительно текстом сценария и аудио-тегами.

Когда использовать Eleven v3, а когда другие речевые модели

На OmniArt доступны три модели ElevenLabs. Рекомендации по выбору:

СценарийЛучшая модельОбоснование
Эмоционально разнообразная подача — персонаж, который смеётся, плачет, кричитEleven v3Аудио-теги и контекстная чувствительность обеспечивают наибольший выразительный диапазон
Стабильная многоязычная начитка (50+ языков)Eleven Multilingual v2Ровная, последовательная подача на многих языках; 10 000 символов на генерацию
Длинные сценарии с быстрой выдачейEleven Turbo v2.5Низкая задержка; 40 000 символов на генерацию по 1 кредиту за 100 символов
Экономичная генерация или тариф FREEMiniMax Speech 2.8 HD / TurboДоступно на тарифе FREE; HD — для финального качества, Turbo — для черновиков

Полезная ментальная модель: используйте v3, когда сценарий требует игры и сама подача несёт смысловую нагрузку. Используйте Multilingual v2, когда цель — чёткая начитка, удобная для восприятия на разных языках. Используйте Turbo v2.5, когда у вас длинный, относительно нейтральный сценарий и нужны быстрые результаты.

Полные спецификации — на страницах моделей: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Распространённые ошибки при расстановке тегов

Избыточная разметка: если тег стоит в каждом предложении, вариативность выравнивается. Теги эмоций работают сильнее, когда появляются после отрезка естественной, немаркированной подачи. Используйте их для пиков и переходов, а не как постоянный слой.

Противоречивые теги: [shouting] сразу за которым следует [whispers] без промежуточного предложения может сбить модель с толку. Оставляйте хотя бы одно нейтральное предложение между сильными контрастами.

Теги акцентов без предварительного теста: результат зависит от базового пресета голоса. Прогоните тестовую строку из 50 символов, прежде чем применять тег акцента ко всему длинному сценарию.

Теги внутри слов: теги должны стоять между целыми словами или знаками препинания, а не внутри слова. Incre[excited]dible не распознается корректно — пишите [excited] Incredible.

Сценарии, где результат наиболее заметен

Аудиокниги с несколькими персонажами: сочетание пресетов голосов и тегов подачи позволяет разграничить рассказчика и персонажей, наделив каждого стабильной эмоциональной интонацией. Сопоставимый рабочий процесс для полноценной аудиопостановки описан в руководстве по озвучке MiniMax Speech.

Диалоги в играх и интерактивной прозе: короткие, ёмкие реплики с выразительными тегами — [afraid] Stay back!, [laughs] You call that a plan? — создают правдоподобных NPC без заказных актёров озвучки.

Закадровый голос для YouTube с широким эмоциональным диапазоном: документальный или обучающий ролик, чередующий драматические открытия, юмористические отступления и задумчивые паузы, выигрывает от смен подачи. Пометьте переходы — и темп сложится сам собой.

Диалоговые медиа и трейлеры: два-три персонажных прочтения из одной генерации, разграниченные пресетами голосов и тегами, упаковывают диалоговую сцену в один шаг рабочего процесса.

Начните на OmniArt

Самый быстрый способ почувствовать возможности v3 — взять хорошо знакомый сценарий — монолог, начало рассказа, несколько реплик из игры — и разметить его дважды: сначала с минимальной разметкой, затем с агрессивными сменами подачи. Сгенерируйте оба варианта и сравните. Разница между слегка режиссированным и полностью режиссированным сценарием обычно очевидна с первой фразы.

Откройте Eleven v3 на OmniArt и вставьте свой первый сценарий с тегами. Начните с примера эмоциональной начитки выше, смените пресет голоса и посмотрите, что изменится. Как только словарь тегов станет привычным, модель будет реагировать так же чутко, как настоящая запись в студии, — без студии.

Для полного обзора всех аудиомоделей на OmniArt, включая музыку и звуковые эффекты, смотрите полное руководство по аудиопространству.

Готовы создавать?

Начните генерировать впечатляющий контент с ИИ

Начать бесплатно