tutorialTutoriels et guides pratiques10 min de lecture

Audio tags Eleven v3 : diriger des voix IA expressives avec précision

Découvrez comment utiliser les audio tags d'ElevenLabs v3 — émotions, interprétation, accent et personnage entre crochets — pour diriger des performances vocales expressives sur OmniArt.

Équipe OmniArt
Audio tags Eleven v3 : diriger des voix IA expressives avec précision

La plupart des outils de synthèse vocale lisent un script de la même façon à chaque fois : plat, cadencé et légèrement robotique. Eleven v3 est différent. Il comprend la texture émotionnelle de votre script et, grâce aux audio tags, vous pouvez lui donner des instructions explicites — tout comme un directeur artistique indique à un comédien comment jouer sa réplique avant une prise.

Les audio tags sont des mots ou des courtes phrases entre crochets insérés directement dans votre script. Ils indiquent au modèle comment délivrer la ligne suivante : la chuchoter, la crier, l'imprégner d'un accent britannique ou la couper en milieu de phrase avec un soupir. Ce guide présente le vocabulaire complet des tags disponibles sur OmniArt, la façon d'écrire des scripts multi-personnages qui les utilisent, et comment décider quand Eleven v3 est le bon modèle pour la tâche.

Que sont les audio tags ?

Les audio tags sont des indications de jeu placées entre crochets — [whispers], [excited], [British accent] — au point du script où vous souhaitez que l'interprétation change. Eleven v3 les interprète comme des instructions et non comme des mots à prononcer, puis ajuste le ton, le rythme et l'affect en conséquence.

La différence clé par rapport aux anciens systèmes TTS est que le v3 interprète le contexte. Il n'applique pas un simple filtre global : il pèse la tag en regard de la phrase environnante, de sorte que [sighs] avant « I suppose you're right » produit un résultat différent de [sighs] avant « Fine, let's go. » Cette sensibilité contextuelle est ce qui fait que les scripts balisés sonnent comme des scripts dirigés plutôt que simplement traités.

Astuce

Placez la tag immédiatement avant la phrase qu'elle doit affecter. Une tag en début de paragraphe gouverne l'interprétation jusqu'à la prochaine tag ou jusqu'à une rupture tonale naturelle.

Le vocabulaire des audio tags

Le tableau ci-dessous organise toutes les grandes catégories de tags avec des exemples. Ce sont les indications auxquelles Eleven v3 répond de façon fiable sur OmniArt.

Tags d'émotion

TagEffet
[excited]Énergie élevée, rythme plus rapide, ton plus lumineux
[sad]Interprétation plus lente, plus grave, plus contenue
[angry]Débit saccadé, incisif, volume élevé
[nervous]Rythme légèrement irrégulier, volume global plus bas
[happy]Chaleureux, enjoué, résonance ouverte
[tired]Plus lent, plus plat, effort minimal
[afraid]Tendu, retenu, souffle réduit
[disgusted]Affect plat avec une légère condescendance
[surprised]Attaque haute, phrase plus courte

Tags d'interprétation

TagEffet
[whispers]Murmuré, faible volume, intimité
[shouting]Volume élevé, projeté, résonance large
[pause]Silence naturel inséré à cet endroit
[slowly]Tempo étiré sans modification de hauteur
[fast]Tempo compressé, énergie accrue
[sighs]Expiration audible tissée au début de la phrase
[laughs]Ajoute un court rire naturel avant ou pendant la réplique
[crying]Voix brisée, qualité humide dans l'interprétation

Tags de personnage et de persona

TagEffet
[pirate voice]Théâtral, grogné, cadence exagérée
[robot voice]Saccadé, monotone, qualité synthétique
[narrator]Autoritaire, posé, registre documentaire
[announcer]Projeté, formel, qualité radiodiffusion
[childlike]Ton plus aigu, phrases plus courtes, enjoué

Tags d'accent

TagEffet
[British accent]Qualité Received Pronunciation
[Southern US accent]Voyelles chaudes et traînantes
[Australian accent]Intonation montante en fin de phrase
[Irish accent]Mélodique, arrondissement des voyelles caractéristique
[New York accent]Consonnes sèches, registre médian nasal

Note

Les tags d'accent se superposent au preset de voix de base. Les résultats varient selon le preset — certaines voix réagissent plus fortement que d'autres. Générez une courte ligne de test avant de vous engager sur un script long.

Tableau de référence rapide

ObjectifExemples de tags
Émotion — positive[excited], [happy], [surprised]
Émotion — négative[sad], [angry], [tired], [afraid], [nervous]
Volume / projection[whispers], [shouting]
Tempo[slowly], [fast]
Sons naturels[sighs], [laughs], [crying], [pause]
Registre de personnage[pirate voice], [robot voice], [narrator], [announcer], [childlike]
Accent[British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent]

Écrire un script balisé : deux exemples

Exemple 1 — narration émotionnelle

Voici une courte ouverture pour un chapitre d'audiolibro. Les tags font évoluer l'humeur au fil des changements de scène.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

La tag [narrator] installe un registre posé dès le début. [slowly] combiné à [pause] crée un espace dramatique. [tired] alourdit l'interprétation avant que [whispers] ne la ramène au niveau bas et intime. [sighs] ajoute un souffle physique qui donne à la dernière ligne son sentiment de nécessité.

Exemple 2 — dialogue à deux personnages

Eleven v3 peut gérer des lectures multi-locuteurs à partir d'un seul prompt. Utilisez des étiquettes de personnage et des tags d'interprétation pour distinguer chaque voix.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Astuce

Pour les scripts multi-personnages, choisissez deux presets de voix aux registres de base nettement différents — l'un plus grave, l'autre plus léger — afin que la distinction entre personnages passe même sans étiquettes visuelles de locuteur dans la sortie audio.

Comment utiliser les audio tags sur OmniArt

  1. Accédez au mode audio et sélectionnez l'onglet Parole (Speech).
  2. Choisissez Eleven v3 dans le menu des modèles. Il est disponible à partir du plan STARTER.
  3. Sélectionnez un preset de voix. OmniArt propose 353 voix sélectionnées pour ses modèles de parole. Parcourez-les par genre et par style — les presets graves et autoritaires conviennent bien à la narration ; les presets plus lumineux, dans les médiums, répondent mieux aux tags d'émotion intenses.
  4. Collez votre script balisé dans le champ de prompt. Eleven v3 accepte jusqu'à 5 000 caractères par génération.
  5. Définissez la langue pour qu'elle corresponde à votre script.
  6. Générez et écoutez. Si une tag est trop ou insuffisamment appliquée, ajustez sa position, ajoutez une autre tag pour rétablir l'interprétation, ou testez un preset de voix différent.

La facturation s'effectue à 1 crédit par bloc de 50 caractères entamé. Un script de 500 caractères coûte 10 crédits ; un script de 5 000 caractères coûte 100 crédits. Les blocs de 50 caractères partiels sont arrondis à l'unité supérieure.

Avertissement

OmniArt ne propose pas de clonage vocal, de curseur de vitesse ni de contrôle de hauteur pour Eleven v3. Toute la variation d'interprétation provient du texte du script et des audio tags.

Quand utiliser Eleven v3 plutôt qu'un autre modèle de parole

Trois modèles ElevenLabs sont disponibles sur OmniArt. Voici quand choisir l'un ou l'autre.

ScénarioMeilleur modèleRaison
Performance émotionnellement variée — un personnage qui rit, pleure, crieEleven v3Les audio tags et la sensibilité contextuelle offrent le plus large registre expressif
Narration multilingue stable (plus de 50 langues)Eleven Multilingual v2Interprétation cohérente et homogène dans de nombreuses langues ; 10 000 caractères par génération
Scripts longs avec rendu rapideEleven Turbo v2.5Faible latence ; 40 000 caractères par génération à 1 crédit pour 100 caractères
Génération économique ou en plan FREEMiniMax Speech 2.8 HD / TurboDisponible sur le plan FREE ; HD pour la qualité finale, Turbo pour les brouillons

Un cadre mental utile : optez pour le v3 quand le script exige une performance et que l'interprétation porte en elle-même du sens. Choisissez Multilingual v2 quand l'objectif est une narration claire et facile à suivre dans de nombreuses langues. Préférez Turbo v2.5 quand vous avez un script long, relativement neutre, et avez besoin de résultats rapidement.

Consultez les pages de modèles pour les spécifications complètes : Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Erreurs de balisage courantes à éviter

Sur-balisage : ajouter une tag à chaque phrase aplatit la variation. Les tags d'émotion ont plus d'impact quand elles surgissent après un passage d'interprétation naturelle non balisée. Réservez-les aux pics et aux transitions, pas comme couche permanente.

Tags contradictoires : [shouting] suivi immédiatement de [whispers] sans aucune phrase entre les deux peut perturber le modèle. Laissez une phrase d'interprétation neutre entre des contrastes forts.

Tags d'accent sans test préalable : le rendu de l'accent dépend du preset de voix de base. Effectuez un test sur une ligne de 50 caractères avant d'appliquer une tag d'accent à l'ensemble d'un script long.

Tags au milieu d'un mot : les tags doivent se trouver entre des mots complets ou de la ponctuation, pas à l'intérieur d'un mot. Incre[excited]dible ne sera pas interprété correctement — écrivez plutôt [excited] Incredible.

Cas d'usage qui en bénéficient le plus

Audiolibros avec plusieurs personnages : la combinaison des presets de voix et des tags d'interprétation vous permet de distinguer le narrateur des personnages et de donner à chacun une signature émotionnelle cohérente. Consultez le guide de voix off MiniMax Speech pour un flux de travail comparable sur la réalisation d'une production audio complète.

Dialogues de jeux vidéo et fiction interactive : des répliques courtes et percutantes avec des tags fortes — [afraid] Stay back!, [laughs] You call that a plan? — créent des PNJ convaincants sans avoir recours à des comédiens de doublage sur mesure.

Narration YouTube avec registre émotionnel étendu : un documentaire ou une vidéo explicative qui alterne entre révélations dramatiques, apartés humoristiques et moments de réflexion silencieuse tire parti des changements d'interprétation. Balisez les transitions et le rythme s'écrit de lui-même.

Médias à dialogues et bandes-annonces : deux ou trois lectures de personnages issues d'une seule génération, chacune distinguée par un preset de voix et des tags, condensent une scène de dialogue en une seule étape de production.

Commencez sur OmniArt

Le moyen le plus rapide de développer l'oreille pour ce que le v3 peut faire, c'est de prendre un script que vous connaissez bien — un monologue, l'ouverture d'une nouvelle, quelques lignes de dialogue de jeu vidéo — et de le baliser deux fois : une fois avec un balisage léger, une fois avec des changements d'interprétation volontairement marqués. Générez les deux et comparez. La différence entre un script légèrement dirigé et un script entièrement dirigé est généralement évidente dès la première phrase.

Ouvrez Eleven v3 sur OmniArt et collez votre premier script balisé. Commencez avec l'exemple de narration émotionnelle ci-dessus, changez le preset de voix et observez ce qui change. Une fois que le vocabulaire de tags vous sera devenu naturel, le modèle sera aussi réactif qu'une vraie session d'enregistrement — sans le studio.

Pour un aperçu complet de tous les modèles audio disponibles sur OmniArt, musique et effets sonores inclus, consultez le guide complet de l'espace audio.

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA

Commencer gratuitement