tutorialTutoriales y guías10 min de lectura

Audio tags de Eleven v3: cómo dirigir voces expresivas con IA

Aprende a usar las audio tags de ElevenLabs v3 — emociones, interpretación, acento y personaje entre corchetes — para dirigir actuaciones de voz expresivas con IA en OmniArt.

Equipo OmniArt
Audio tags de Eleven v3: cómo dirigir voces expresivas con IA

La mayoría de las herramientas de texto a voz leen un guion siempre de la misma manera: plana, medida y ligeramente robótica. Eleven v3 es diferente. Entiende la textura emocional de tu guion y, con las audio tags, puedes darle instrucciones explícitas — igual que un director de doblaje orienta a un actor antes de una toma.

Las audio tags son palabras o frases cortas entre corchetes que se insertan directamente en el guion. Le indican al modelo cómo debe interpretar la siguiente línea: susurrarla, gritarla, darle un acento británico o cortarla a mitad de frase con un suspiro. Esta guía cubre el vocabulario completo de tags disponible en OmniArt, cómo escribir guiones con múltiples personajes que las usen y cómo decidir cuándo Eleven v3 es el modelo adecuado para cada trabajo.

¿Qué son las audio tags?

Las audio tags son marcas de dirección que se colocan entre corchetes — [whispers], [excited], [British accent] — en el punto del guion donde quieres que cambie la interpretación. Eleven v3 las procesa como instrucciones, no como palabras para pronunciar, y ajusta el tono, el ritmo y la expresividad en consecuencia.

La diferencia clave respecto a los sistemas TTS anteriores es que el v3 interpreta el contexto. No aplica un filtro general: pondera la tag frente a la frase circundante, de modo que [sighs] antes de "I suppose you're right" produce un resultado diferente que [sighs] antes de "Fine, let's go." Esa sensibilidad al contexto es lo que hace que los guiones con tags suenen dirigidos, no procesados.

Consejo

Coloca la tag justo antes de la frase que debe afectar. Una tag al inicio de un párrafo rige la interpretación hasta la siguiente tag o hasta un restablecimiento tonal natural.

El vocabulario de audio tags

La tabla siguiente organiza las principales categorías de tags con ejemplos. Estas son las marcaciones a las que Eleven v3 responde de manera confiable en OmniArt.

Tags de emoción

TagEfecto
[excited]Mayor energía, ritmo más rápido, tono más brillante
[sad]Interpretación más lenta, más grave y más contenida
[angry]Cortado, incisivo, volumen elevado
[nervous]Ritmo levemente irregular, volumen general más bajo
[happy]Cálido, animado, resonancia abierta
[tired]Más lento, más plano, menor esfuerzo
[afraid]Tenso, restringido, respiración reducida
[disgusted]Afecto plano con leve desdén
[surprised]Inicio en tono más agudo, frase más corta

Tags de interpretación

TagEfecto
[whispers]Susurrado, bajo volumen, intimidad
[shouting]Volumen alto, proyectado, resonancia amplia
[pause]Pausa natural insertada en ese punto
[slowly]Tempo alargado sin cambio de tono
[fast]Tempo comprimido, mayor energía
[sighs]Exhalación audible tejida al inicio de la frase
[laughs]Añade una carcajada natural breve antes o durante la línea
[crying]Calidad entrecortada y temblorosa en la interpretación

Tags de personaje y persona

TagEfecto
[pirate voice]Teatral, gruñido, cadencia exagerada
[robot voice]Cortado, monótono, calidad sintética
[narrator]Autoritativo, pausado, registro documental
[announcer]Proyectado, formal, calidad de radiodifusión
[childlike]Tono más agudo, frases más cortas, juguetón

Tags de acento

TagEfecto
[British accent]Calidad de Received Pronunciation
[Southern US accent]Vocales cálidas y arrastradas
[Australian accent]Entonación ascendente al final de la frase
[Irish accent]Melódico, con redondeo de vocales característico
[New York accent]Consonantes cortadas, rango medio nasal

Nota

Las tags de acento se superponen al preset de voz base. Los resultados varían según el preset — algunas voces responden con más intensidad que otras. Genera una línea de prueba corta antes de comprometerte con un guion largo.

Tabla de referencia rápida

PropósitoEjemplos de tags
Emoción — positiva[excited], [happy], [surprised]
Emoción — negativa[sad], [angry], [tired], [afraid], [nervous]
Volumen / proyección[whispers], [shouting]
Tempo[slowly], [fast]
Sonidos naturales[sighs], [laughs], [crying], [pause]
Registro de personaje[pirate voice], [robot voice], [narrator], [announcer], [childlike]
Acento[British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent]

Cómo escribir un guion con tags: dos ejemplos

Ejemplo 1 — narración emocional

Esta es una apertura corta para un capítulo de audiolibro. Las tags van cambiando el estado de ánimo a medida que la escena evoluciona.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

La tag [narrator] establece un registro pausado desde el principio. [slowly] con una [pause] crea espacio dramático. [tired] pesa la interpretación antes de que [whispers] la lleve a algo bajo e íntimo. [sighs] añade un aliento físico que hace que la última línea parezca ganada a pulso.

Ejemplo 2 — diálogo entre dos personajes

Eleven v3 puede gestionar lecturas con múltiples locutores desde un único prompt. Usa etiquetas de personaje y tags de interpretación para distinguir cada voz.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Consejo

Para guiones con múltiples personajes, elige dos presets de voz con registros base claramente diferentes — uno más grave, otro más ligero — para que la distinción entre personajes se perciba incluso sin etiquetas visuales de locutor en la salida de audio.

Cómo usar las audio tags en OmniArt

  1. Ve al modo de audio y selecciona la pestaña Habla (Speech).
  2. Elige Eleven v3 en el menú de modelos. Está disponible en el plan STARTER y superiores.
  3. Selecciona un preset de voz. OmniArt ofrece 353 voces curadas para los modelos de habla. Navega por género y estilo — los presets más graves y autoritativos funcionan bien para narración; los más brillantes y de rango medio responden mejor a tags de emoción intensa.
  4. Pega tu guion con tags en el campo de prompt. Eleven v3 acepta hasta 5.000 caracteres por generación.
  5. Establece el idioma para que coincida con tu guion.
  6. Genera y escucha. Si una tag se aplica en exceso o insuficiencia, ajusta su posición, añade otra para restablecer la interpretación o prueba con un preset de voz diferente.

La facturación se realiza a 1 crédito por cada bloque de 50 caracteres iniciado. Un guion de 500 caracteres cuesta 10 créditos; uno de 5.000 caracteres cuesta 100 créditos. Los bloques parciales de 50 caracteres se redondean hacia arriba.

Advertencia

OmniArt no ofrece clonación de voz, controles de velocidad ni de tono para Eleven v3. Toda la variación en la interpretación proviene del texto del guion y de las audio tags.

Cuándo usar Eleven v3 frente a otros modelos de voz

Hay tres modelos ElevenLabs disponibles en OmniArt. Aquí te explicamos cuándo usar cada uno.

EscenarioMejor modeloMotivo
Actuación emocionalmente variada — un personaje que ríe, llora, gritaEleven v3Las audio tags y la sensibilidad al contexto ofrecen el mayor rango expresivo
Narración multilingüe estable (más de 50 idiomas)Eleven Multilingual v2Interpretación consistente y uniforme en varios idiomas; 10.000 caracteres por generación
Guiones largos con entrega rápidaEleven Turbo v2.5Baja latencia; 40.000 caracteres por generación a 1 crédito por 100 caracteres
Generación económica o en el plan FREEMiniMax Speech 2.8 HD / TurboDisponible en el plan FREE; HD para calidad final, Turbo para borradores

Un modelo mental útil: usa el v3 cuando el guion exige una actuación y la interpretación en sí transmite significado. Usa Multilingual v2 cuando el objetivo es una narración clara y fácil de seguir en muchos idiomas. Usa Turbo v2.5 cuando tengas un guion largo, relativamente neutro, y necesites resultados rápidamente.

Consulta las páginas de modelos para ver las especificaciones completas: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Errores de marcación habituales que debes evitar

Exceso de tags: añadir una tag en cada frase aplana la variación. Las tags de emoción tienen mayor impacto cuando aparecen después de un tramo de interpretación natural sin marcación. Úsalas para picos y transiciones, no como una capa constante.

Tags contradictorias: [shouting] seguido inmediatamente de [whispers] sin ninguna frase entre ellos puede confundir al modelo. Deja una frase de interpretación neutra entre contrastes fuertes.

Tags de acento sin prueba previa: el resultado del acento depende del preset de voz base. Haz una prueba con una línea de 50 caracteres antes de aplicar una tag de acento en un guion largo.

Tags en mitad de palabras: las tags deben ir entre palabras completas o signos de puntuación, no dentro de una palabra. Incre[excited]dible no se interpretará correctamente — escribe [excited] Incredible en su lugar.

Casos de uso que más se benefician

Audiolibros con múltiples personajes: la combinación de presets de voz y tags de interpretación te permite distinguir al narrador de los personajes y dotar a cada uno de una firma emocional consistente. Consulta el guía de locución de MiniMax Speech para ver un flujo de trabajo comparable sobre cómo montar una producción de audio completa.

Diálogos de videojuegos y ficción interactiva: líneas cortas y contundentes con tags fuertes — [afraid] Stay back!, [laughs] You call that a plan? — crean NPCs convincentes sin necesidad de actores de doblaje personalizados.

Narración para YouTube con rango emocional: un documental o video explicativo que alterna entre revelaciones dramáticas, comentarios humorísticos y reflexión silenciosa se beneficia de los cambios en la interpretación. Marca las transiciones y el ritmo se escribe solo.

Medios con diálogo y tráilers: dos o tres lecturas de personajes a partir de una sola generación, cada una distinguida por preset de voz y tags, comprimen una escena de diálogo en un único paso del flujo de trabajo.

Empieza ahora en OmniArt

La forma más rápida de desarrollar el oído para lo que el v3 puede hacer es tomar un guion que conozcas bien — un monólogo, la apertura de un cuento, unas pocas líneas de diálogo de videojuego — y marcarlo dos veces: una con marcación ligera, otra con cambios de interpretación agresivos. Genera ambos y compara. La diferencia entre un guion levemente dirigido y uno completamente dirigido suele ser evidente desde la primera frase.

Abre Eleven v3 en OmniArt y pega tu primer guion con tags. Empieza con el ejemplo de narración emocional de arriba, cambia el preset de voz y observa qué cambia. Cuando el vocabulario de tags te resulte natural, el modelo se vuelve tan receptivo como una sesión de grabación real — sin el estudio.

Para un vistazo completo a todos los modelos de audio disponibles en OmniArt, incluyendo música y efectos de sonido, consulta la guía completa del espacio de audio.

¿Listo para crear?

Empieza a generar contenido increíble con IA

Empezar gratis