Guia de audio tags do Eleven v3: como dirigir vozes expressivas com IA
Aprenda a usar as audio tags do ElevenLabs v3 — emoção, entrega, sotaque e personagem em colchetes — para dirigir performances vocais expressivas com IA no OmniArt.

A maioria das ferramentas de texto para fala lê um roteiro sempre da mesma forma: plana, cadenciada e levemente robótica. O Eleven v3 é diferente. Ele entende a textura emocional do seu roteiro e, com as audio tags, você pode dar direções explícitas — da mesma forma que um diretor de voz orienta um ator antes de uma tomada.
Audio tags são palavras ou frases curtas entre colchetes inseridas diretamente no roteiro. Elas dizem ao modelo como entregar a próxima linha: sussurrar, gritar, colorir com sotaque britânico ou interromper no meio da frase com um suspiro. Este guia cobre o vocabulário completo de tags disponível no OmniArt, como escrever roteiros com múltiplos personagens que as utilizam e como decidir quando o Eleven v3 é o modelo certo para o trabalho.
O que são audio tags?
Audio tags são marcações de direção inseridas entre colchetes — [whispers], [excited], [British accent] — no ponto do roteiro onde você quer que a entrega mude. O Eleven v3 as interpreta como instruções, não como palavras a serem pronunciadas, e ajusta o tom, o ritmo e a afetividade de acordo.
A diferença fundamental em relação aos sistemas de TTS mais antigos é que o v3 interpreta o contexto. Ele não aplica apenas um filtro geral: pondera a tag em relação à frase ao redor, de forma que [sighs] antes de "I suppose you're right" produz um resultado diferente de [sighs] antes de "Fine, let's go." Essa sensibilidade ao contexto é o que faz roteiros com tags soarem dirigidos, e não processados.
Dica
O vocabulário de audio tags
A tabela abaixo organiza as principais categorias de tags com exemplos. Estas são as marcações que o Eleven v3 responde de forma confiável no OmniArt.
Tags de emoção
| Tag | Efeito |
|---|---|
[excited] | Energia elevada, ritmo mais acelerado, tom mais brilhante |
[sad] | Entrega mais lenta, mais grave e mais contida |
[angry] | Entrega cortante, incisiva, com volume elevado |
[nervous] | Ritmo levemente irregular, volume geral mais baixo |
[happy] | Entrega calorosa, animada, com ressonância aberta |
[tired] | Mais lento, mais plano, menor energia |
[afraid] | Tenso, contido, respiração reduzida |
[disgusted] | Afeto plano com leve desdém |
[surprised] | Início com tom mais agudo, frase mais curta |
Tags de entrega
| Tag | Efeito |
|---|---|
[whispers] | Sussurrado, baixo volume, intimidade |
[shouting] | Volume alto, projetado, ressonância ampla |
[pause] | Pausa natural inserida no ponto indicado |
[slowly] | Tempo alongado sem alteração de pitch |
[fast] | Tempo comprimido, maior energia |
[sighs] | Exalação audível tecida no início da frase |
[laughs] | Adiciona uma risada natural breve antes ou durante a linha |
[crying] | Qualidade cortada e úmida na entrega |
Tags de personagem e persona
| Tag | Efeito |
|---|---|
[pirate voice] | Teatral, rosnado, cadência exagerada |
[robot voice] | Cortado, monótono, qualidade sintética |
[narrator] | Autoritativo, cadenciado, registro documental |
[announcer] | Projetado, formal, qualidade de transmissão |
[childlike] | Tom mais agudo, frases mais curtas, alegre |
Tags de sotaque
| Tag | Efeito |
|---|---|
[British accent] | Qualidade de Received Pronunciation |
[Southern US accent] | Vogais quentes e arrastadas |
[Australian accent] | Entonação ascendente terminal |
[Irish accent] | Melódico, com arredondamento de vogais característico |
[New York accent] | Consoantes cortadas, registro médio nasal |
Nota
Tabela de referência rápida
| Finalidade | Exemplos de tags |
|---|---|
| Emoção — positiva | [excited], [happy], [surprised] |
| Emoção — negativa | [sad], [angry], [tired], [afraid], [nervous] |
| Volume / projeção | [whispers], [shouting] |
| Ritmo | [slowly], [fast] |
| Sons naturais | [sighs], [laughs], [crying], [pause] |
| Registro de personagem | [pirate voice], [robot voice], [narrator], [announcer], [childlike] |
| Sotaque | [British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent] |
Escrevendo um roteiro com tags: dois exemplos
Exemplo 1 — narração emocional
Esta é uma abertura curta para um capítulo de audiobook. As tags mudam o humor conforme a cena se transforma.
[narrator] The city had been quiet for three days.
[slowly] Not the quiet of peace — [pause] the quiet of waiting.
[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.
[whispers] They had to be out there somewhere.
[sighs] She just needed one more lead.
A tag [narrator] define um registro cadenciado desde o início. [slowly] combinado com [pause] cria espaço dramático. [tired] deixa a entrega pesada antes de [whispers] puxá-la para algo baixo e íntimo. [sighs] adiciona uma respiração física que faz a última linha soar como algo conquistado.
Exemplo 2 — diálogo entre dois personagens
O Eleven v3 consegue lidar com leituras de múltiplos locutores a partir de um único prompt. Use rótulos de personagem e tags de entrega para distinguir cada voz.
CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.
FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.
CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.
FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.
Dica
Como usar audio tags no OmniArt
- Acesse o modo de áudio e selecione a aba Fala (Speech).
- Escolha o Eleven v3 no menu de modelos. Ele está disponível no plano STARTER e acima.
- Selecione um preset de voz. O OmniArt oferece 353 vozes com curadoria para os modelos de fala. Navegue por gênero e estilo — presets mais graves e autoritativos funcionam bem para narração; presets mais brilhantes e de médio alcance respondem bem a tags de emoção intensa.
- Cole seu roteiro com tags no campo de prompt. O Eleven v3 aceita até 5.000 caracteres por geração.
- Defina o idioma para corresponder ao seu roteiro.
- Gere e ouça. Se uma tag estiver sendo aplicada em excesso ou insuficiência, ajuste sua posição, adicione outra tag para redefinir a entrega ou experimente um preset de voz diferente.
O faturamento ocorre a 1 crédito por bloco iniciado de 50 caracteres. Um roteiro de 500 caracteres custa 10 créditos; um roteiro de 5.000 caracteres custa 100 créditos. Blocos parciais de 50 caracteres são arredondados para cima.
Aviso
Quando usar Eleven v3 versus outros modelos de fala
Três modelos ElevenLabs estão disponíveis no OmniArt. Veja quando usar cada um.
| Cenário | Melhor modelo | Motivo |
|---|---|---|
| Performance emocionalmente variada — um personagem que ri, chora, grita | Eleven v3 | Audio tags e sensibilidade ao contexto oferecem o maior alcance expressivo |
| Narração multilíngue estável (mais de 50 idiomas) | Eleven Multilingual v2 | Entrega consistente e uniforme em vários idiomas; 10.000 caracteres por geração |
| Roteiros longos com entrega rápida | Eleven Turbo v2.5 | Baixa latência; 40.000 caracteres por geração a 1 crédito por 100 caracteres |
| Geração econômica ou no plano FREE | MiniMax Speech 2.8 HD / Turbo | Disponível no plano FREE; HD para qualidade final, Turbo para rascunhos |
Um modelo mental útil: use o v3 quando o roteiro exige uma performance e a entrega em si carrega significado. Use o Multilingual v2 quando o objetivo é uma narração clara e fácil de acompanhar em muitos idiomas. Use o Turbo v2.5 quando você tem um roteiro longo, relativamente neutro, e precisa de resultados rapidamente.
Veja as páginas de modelos para especificações completas: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.
Erros comuns de marcação para evitar
Excesso de tags: adicionar uma tag em cada frase nivela a variação. Tags de emoção têm mais impacto quando chegam após um trecho de entrega natural sem marcação. Use-as para picos e transições, não como uma camada constante.
Tags contraditórias: [shouting] seguido imediatamente por [whispers] sem nenhuma frase entre eles pode confundir o modelo. Deixe uma frase de entrega neutra entre contrastes fortes.
Tags de sotaque sem teste: a renderização de sotaque depende do preset de voz base. Faça um teste com uma linha de 50 caracteres antes de aplicar uma tag de sotaque em um roteiro longo.
Tags no meio de palavras: as tags precisam estar entre palavras completas ou pontuação, não dentro de uma palavra. Incre[excited]dible não será interpretado corretamente — escreva [excited] Incredible.
Casos de uso que mais se beneficiam
Audiobooks com múltiplos personagens: a combinação de presets de voz e tags de entrega permite distinguir narrador de personagem e dar a cada personagem uma assinatura emocional consistente. Veja como montar uma produção de áudio completa no guia de narração MiniMax Speech para um fluxo de trabalho comparável.
Diálogos de jogos e ficção interativa: linhas curtas e incisivas com tags fortes — [afraid] Stay back!, [laughs] You call that a plan? — criam NPCs convincentes sem a necessidade de atores de voz personalizados.
Narração para YouTube com alcance emocional: um documentário ou vídeo explicativo que transita entre revelações dramáticas, aparte humorísticos e reflexão silenciosa se beneficia das mudanças de entrega. Marque as transições e o ritmo se escreve sozinho.
Mídia com diálogo e trailers: duas ou três leituras de personagens a partir de uma única geração, cada uma distinguida por preset de voz e tags, comprimem uma cena de diálogo em um único passo do fluxo de trabalho.
Comece agora no OmniArt
A forma mais rápida de desenvolver a percepção do que o v3 consegue fazer é pegar um roteiro que você conhece bem — um monólogo, a abertura de um conto, algumas linhas de diálogo de jogo — e marcá-lo duas vezes: uma com marcação leve, outra com mudanças de entrega agressivas. Gere ambos e compare. A diferença entre um roteiro levemente dirigido e um totalmente dirigido geralmente fica óbvia logo na primeira frase.
Abra o Eleven v3 no OmniArt e cole seu primeiro roteiro com tags. Comece com o exemplo de narração emocional acima, troque o preset de voz e observe o que muda. Quando o vocabulário de tags parecer natural, o modelo se torna tão responsivo quanto uma sessão de gravação real — sem o estúdio.
Para uma visão ampla de todos os modelos de áudio disponíveis no OmniArt, incluindo música e efeitos sonoros, veja o guia completo do espaço de áudio.
Pronto para criar?
Comece a gerar conteúdo incrível com IA