Audio tags Eleven v3 : diriger des voix IA expressives avec précision
Découvrez comment utiliser les audio tags d'ElevenLabs v3 — émotions, interprétation, accent et personnage entre crochets — pour diriger des performances vocales expressives sur OmniArt.

La plupart des outils de synthèse vocale lisent un script de la même façon à chaque fois : plat, cadencé et légèrement robotique. Eleven v3 est différent. Il comprend la texture émotionnelle de votre script et, grâce aux audio tags, vous pouvez lui donner des instructions explicites — tout comme un directeur artistique indique à un comédien comment jouer sa réplique avant une prise.
Les audio tags sont des mots ou des courtes phrases entre crochets insérés directement dans votre script. Ils indiquent au modèle comment délivrer la ligne suivante : la chuchoter, la crier, l'imprégner d'un accent britannique ou la couper en milieu de phrase avec un soupir. Ce guide présente le vocabulaire complet des tags disponibles sur OmniArt, la façon d'écrire des scripts multi-personnages qui les utilisent, et comment décider quand Eleven v3 est le bon modèle pour la tâche.
Que sont les audio tags ?
Les audio tags sont des indications de jeu placées entre crochets — [whispers], [excited], [British accent] — au point du script où vous souhaitez que l'interprétation change. Eleven v3 les interprète comme des instructions et non comme des mots à prononcer, puis ajuste le ton, le rythme et l'affect en conséquence.
La différence clé par rapport aux anciens systèmes TTS est que le v3 interprète le contexte. Il n'applique pas un simple filtre global : il pèse la tag en regard de la phrase environnante, de sorte que [sighs] avant « I suppose you're right » produit un résultat différent de [sighs] avant « Fine, let's go. » Cette sensibilité contextuelle est ce qui fait que les scripts balisés sonnent comme des scripts dirigés plutôt que simplement traités.
Astuce
Le vocabulaire des audio tags
Le tableau ci-dessous organise toutes les grandes catégories de tags avec des exemples. Ce sont les indications auxquelles Eleven v3 répond de façon fiable sur OmniArt.
Tags d'émotion
| Tag | Effet |
|---|---|
[excited] | Énergie élevée, rythme plus rapide, ton plus lumineux |
[sad] | Interprétation plus lente, plus grave, plus contenue |
[angry] | Débit saccadé, incisif, volume élevé |
[nervous] | Rythme légèrement irrégulier, volume global plus bas |
[happy] | Chaleureux, enjoué, résonance ouverte |
[tired] | Plus lent, plus plat, effort minimal |
[afraid] | Tendu, retenu, souffle réduit |
[disgusted] | Affect plat avec une légère condescendance |
[surprised] | Attaque haute, phrase plus courte |
Tags d'interprétation
| Tag | Effet |
|---|---|
[whispers] | Murmuré, faible volume, intimité |
[shouting] | Volume élevé, projeté, résonance large |
[pause] | Silence naturel inséré à cet endroit |
[slowly] | Tempo étiré sans modification de hauteur |
[fast] | Tempo compressé, énergie accrue |
[sighs] | Expiration audible tissée au début de la phrase |
[laughs] | Ajoute un court rire naturel avant ou pendant la réplique |
[crying] | Voix brisée, qualité humide dans l'interprétation |
Tags de personnage et de persona
| Tag | Effet |
|---|---|
[pirate voice] | Théâtral, grogné, cadence exagérée |
[robot voice] | Saccadé, monotone, qualité synthétique |
[narrator] | Autoritaire, posé, registre documentaire |
[announcer] | Projeté, formel, qualité radiodiffusion |
[childlike] | Ton plus aigu, phrases plus courtes, enjoué |
Tags d'accent
| Tag | Effet |
|---|---|
[British accent] | Qualité Received Pronunciation |
[Southern US accent] | Voyelles chaudes et traînantes |
[Australian accent] | Intonation montante en fin de phrase |
[Irish accent] | Mélodique, arrondissement des voyelles caractéristique |
[New York accent] | Consonnes sèches, registre médian nasal |
Note
Tableau de référence rapide
| Objectif | Exemples de tags |
|---|---|
| Émotion — positive | [excited], [happy], [surprised] |
| Émotion — négative | [sad], [angry], [tired], [afraid], [nervous] |
| Volume / projection | [whispers], [shouting] |
| Tempo | [slowly], [fast] |
| Sons naturels | [sighs], [laughs], [crying], [pause] |
| Registre de personnage | [pirate voice], [robot voice], [narrator], [announcer], [childlike] |
| Accent | [British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent] |
Écrire un script balisé : deux exemples
Exemple 1 — narration émotionnelle
Voici une courte ouverture pour un chapitre d'audiolibro. Les tags font évoluer l'humeur au fil des changements de scène.
[narrator] The city had been quiet for three days.
[slowly] Not the quiet of peace — [pause] the quiet of waiting.
[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.
[whispers] They had to be out there somewhere.
[sighs] She just needed one more lead.
La tag [narrator] installe un registre posé dès le début. [slowly] combiné à [pause] crée un espace dramatique. [tired] alourdit l'interprétation avant que [whispers] ne la ramène au niveau bas et intime. [sighs] ajoute un souffle physique qui donne à la dernière ligne son sentiment de nécessité.
Exemple 2 — dialogue à deux personnages
Eleven v3 peut gérer des lectures multi-locuteurs à partir d'un seul prompt. Utilisez des étiquettes de personnage et des tags d'interprétation pour distinguer chaque voix.
CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.
FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.
CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.
FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.
Astuce
Comment utiliser les audio tags sur OmniArt
- Accédez au mode audio et sélectionnez l'onglet Parole (Speech).
- Choisissez Eleven v3 dans le menu des modèles. Il est disponible à partir du plan STARTER.
- Sélectionnez un preset de voix. OmniArt propose 353 voix sélectionnées pour ses modèles de parole. Parcourez-les par genre et par style — les presets graves et autoritaires conviennent bien à la narration ; les presets plus lumineux, dans les médiums, répondent mieux aux tags d'émotion intenses.
- Collez votre script balisé dans le champ de prompt. Eleven v3 accepte jusqu'à 5 000 caractères par génération.
- Définissez la langue pour qu'elle corresponde à votre script.
- Générez et écoutez. Si une tag est trop ou insuffisamment appliquée, ajustez sa position, ajoutez une autre tag pour rétablir l'interprétation, ou testez un preset de voix différent.
La facturation s'effectue à 1 crédit par bloc de 50 caractères entamé. Un script de 500 caractères coûte 10 crédits ; un script de 5 000 caractères coûte 100 crédits. Les blocs de 50 caractères partiels sont arrondis à l'unité supérieure.
Avertissement
Quand utiliser Eleven v3 plutôt qu'un autre modèle de parole
Trois modèles ElevenLabs sont disponibles sur OmniArt. Voici quand choisir l'un ou l'autre.
| Scénario | Meilleur modèle | Raison |
|---|---|---|
| Performance émotionnellement variée — un personnage qui rit, pleure, crie | Eleven v3 | Les audio tags et la sensibilité contextuelle offrent le plus large registre expressif |
| Narration multilingue stable (plus de 50 langues) | Eleven Multilingual v2 | Interprétation cohérente et homogène dans de nombreuses langues ; 10 000 caractères par génération |
| Scripts longs avec rendu rapide | Eleven Turbo v2.5 | Faible latence ; 40 000 caractères par génération à 1 crédit pour 100 caractères |
| Génération économique ou en plan FREE | MiniMax Speech 2.8 HD / Turbo | Disponible sur le plan FREE ; HD pour la qualité finale, Turbo pour les brouillons |
Un cadre mental utile : optez pour le v3 quand le script exige une performance et que l'interprétation porte en elle-même du sens. Choisissez Multilingual v2 quand l'objectif est une narration claire et facile à suivre dans de nombreuses langues. Préférez Turbo v2.5 quand vous avez un script long, relativement neutre, et avez besoin de résultats rapidement.
Consultez les pages de modèles pour les spécifications complètes : Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.
Erreurs de balisage courantes à éviter
Sur-balisage : ajouter une tag à chaque phrase aplatit la variation. Les tags d'émotion ont plus d'impact quand elles surgissent après un passage d'interprétation naturelle non balisée. Réservez-les aux pics et aux transitions, pas comme couche permanente.
Tags contradictoires : [shouting] suivi immédiatement de [whispers] sans aucune phrase entre les deux peut perturber le modèle. Laissez une phrase d'interprétation neutre entre des contrastes forts.
Tags d'accent sans test préalable : le rendu de l'accent dépend du preset de voix de base. Effectuez un test sur une ligne de 50 caractères avant d'appliquer une tag d'accent à l'ensemble d'un script long.
Tags au milieu d'un mot : les tags doivent se trouver entre des mots complets ou de la ponctuation, pas à l'intérieur d'un mot. Incre[excited]dible ne sera pas interprété correctement — écrivez plutôt [excited] Incredible.
Cas d'usage qui en bénéficient le plus
Audiolibros avec plusieurs personnages : la combinaison des presets de voix et des tags d'interprétation vous permet de distinguer le narrateur des personnages et de donner à chacun une signature émotionnelle cohérente. Consultez le guide de voix off MiniMax Speech pour un flux de travail comparable sur la réalisation d'une production audio complète.
Dialogues de jeux vidéo et fiction interactive : des répliques courtes et percutantes avec des tags fortes — [afraid] Stay back!, [laughs] You call that a plan? — créent des PNJ convaincants sans avoir recours à des comédiens de doublage sur mesure.
Narration YouTube avec registre émotionnel étendu : un documentaire ou une vidéo explicative qui alterne entre révélations dramatiques, apartés humoristiques et moments de réflexion silencieuse tire parti des changements d'interprétation. Balisez les transitions et le rythme s'écrit de lui-même.
Médias à dialogues et bandes-annonces : deux ou trois lectures de personnages issues d'une seule génération, chacune distinguée par un preset de voix et des tags, condensent une scène de dialogue en une seule étape de production.
Commencez sur OmniArt
Le moyen le plus rapide de développer l'oreille pour ce que le v3 peut faire, c'est de prendre un script que vous connaissez bien — un monologue, l'ouverture d'une nouvelle, quelques lignes de dialogue de jeu vidéo — et de le baliser deux fois : une fois avec un balisage léger, une fois avec des changements d'interprétation volontairement marqués. Générez les deux et comparez. La différence entre un script légèrement dirigé et un script entièrement dirigé est généralement évidente dès la première phrase.
Ouvrez Eleven v3 sur OmniArt et collez votre premier script balisé. Commencez avec l'exemple de narration émotionnelle ci-dessus, changez le preset de voix et observez ce qui change. Une fois que le vocabulaire de tags vous sera devenu naturel, le modèle sera aussi réactif qu'une vraie session d'enregistrement — sans le studio.
Pour un aperçu complet de tous les modèles audio disponibles sur OmniArt, musique et effets sonores inclus, consultez le guide complet de l'espace audio.
Prêt à créer ?
Commencez à générer du contenu incroyable avec l’IA