Audio tag di Eleven v3: come dirigere voci IA espressive con precisione
Scopri come usare gli audio tag di ElevenLabs v3 — emozione, interpretazione, accento e persona tra parentesi quadre — per dirigere performance vocali espressive con IA su OmniArt.

La maggior parte degli strumenti di sintesi vocale legge uno script sempre nello stesso modo: piatto, cadenzato e leggermente robotico. Eleven v3 è diverso. Comprende la texture emotiva del tuo script e, con gli audio tag, puoi dargli istruzioni esplicite — proprio come un direttore vocale indica a un doppiatore come interpretare una battuta prima di una registrazione.
Gli audio tag sono parole o brevi frasi tra parentesi quadre inserite direttamente nello script. Dicono al modello come consegnare la riga successiva: bisbigliarla, gridarla, colorirla con un accento britannico o spezzarla a metà frase con un sospiro. Questa guida copre il vocabolario completo dei tag disponibili su OmniArt, come scrivere script multi-personaggio che li usano e come decidere quando Eleven v3 è il modello giusto per il lavoro.
Cosa sono gli audio tag?
Gli audio tag sono indicazioni di regia tra parentesi quadre — [whispers], [excited], [British accent] — nel punto dello script in cui si vuole cambiare l'interpretazione. Eleven v3 li interpreta come istruzioni, non come parole da pronunciare, e regola tono, ritmo e affetto di conseguenza.
La differenza fondamentale rispetto ai vecchi sistemi TTS è che il v3 interpreta il contesto. Non applica un filtro generalizzato: pesa il tag rispetto alla frase circostante, così [sighs] prima di «I suppose you're right» produce un risultato diverso da [sighs] prima di «Fine, let's go.» È questa sensibilità contestuale a rendere gli script con tag diretti, non semplicemente processati.
Suggerimento
Il vocabolario degli audio tag
La tabella seguente organizza le principali categorie di tag con esempi. Sono le indicazioni a cui Eleven v3 risponde in modo affidabile su OmniArt.
Tag di emozione
| Tag | Effetto |
|---|---|
[excited] | Energia elevata, ritmo più rapido, tono più luminoso |
[sad] | Interpretazione più lenta, più bassa, più trattenuta |
[angry] | Spezzato, incisivo, volume elevato |
[nervous] | Ritmo leggermente irregolare, volume generale più basso |
[happy] | Caldo, vivace, risonanza aperta |
[tired] | Più lento, più piatto, sforzo ridotto |
[afraid] | Teso, trattenuto, respiro ridotto |
[disgusted] | Affetto piatto con lieve disprezzo |
[surprised] | Attacco di tono più alto, frase più breve |
Tag di interpretazione
| Tag | Effetto |
|---|---|
[whispers] | Sussurrato, volume basso, intimità |
[shouting] | Volume alto, proiettato, risonanza ampia |
[pause] | Pausa naturale inserita in quel punto |
[slowly] | Tempo allungato senza variazione di altezza |
[fast] | Tempo compresso, energia maggiore |
[sighs] | Espirazione udibile tessuta all'inizio della frase |
[laughs] | Aggiunge una breve risata naturale prima o durante la battuta |
[crying] | Voce spezzata, qualità umida nell'interpretazione |
Tag di personaggio e persona
| Tag | Effetto |
|---|---|
[pirate voice] | Teatrale, ringhiante, cadenza esagerata |
[robot voice] | Spezzato, monotono, qualità sintetica |
[narrator] | Autorevole, misurato, registro documentaristico |
[announcer] | Proiettato, formale, qualità radiofonica |
[childlike] | Tono più acuto, frasi più brevi, giocoso |
Tag di accento
| Tag | Effetto |
|---|---|
[British accent] | Qualità Received Pronunciation |
[Southern US accent] | Vocali calde e strascicate |
[Australian accent] | Intonazione ascendente in chiusura di frase |
[Irish accent] | Melodico, arrotondamento delle vocali caratteristico |
[New York accent] | Consonanti nette, registro medio nasale |
Nota
Tabella di riferimento rapido
| Scopo | Esempi di tag |
|---|---|
| Emozione — positiva | [excited], [happy], [surprised] |
| Emozione — negativa | [sad], [angry], [tired], [afraid], [nervous] |
| Volume / proiezione | [whispers], [shouting] |
| Tempo | [slowly], [fast] |
| Suoni naturali | [sighs], [laughs], [crying], [pause] |
| Registro di personaggio | [pirate voice], [robot voice], [narrator], [announcer], [childlike] |
| Accento | [British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent] |
Scrivere uno script con tag: due esempi
Esempio 1 — narrazione emotiva
Questa è una breve apertura per un capitolo di audiolibro. I tag fanno evolvere l'umore al mutare della scena.
[narrator] The city had been quiet for three days.
[slowly] Not the quiet of peace — [pause] the quiet of waiting.
[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.
[whispers] They had to be out there somewhere.
[sighs] She just needed one more lead.
Il tag [narrator] stabilisce un registro misurato fin dall'inizio. [slowly] con [pause] crea uno spazio drammatico. [tired] appesantisce l'interpretazione prima che [whispers] la abbassi a qualcosa di intimo e sottovoce. [sighs] aggiunge un respiro fisico che rende l'ultima battuta guadagnata.
Esempio 2 — dialogo tra due personaggi
Eleven v3 è in grado di gestire letture multi-locutore da un singolo prompt. Usa etichette di personaggio e tag di interpretazione per distinguere ogni voce.
CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.
FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.
CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.
FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.
Suggerimento
Come usare gli audio tag su OmniArt
- Vai alla modalità audio e seleziona la scheda Parlato (Speech).
- Scegli Eleven v3 dal menu dei modelli. È disponibile nel piano STARTER e superiori.
- Seleziona un preset vocale. OmniArt offre 353 voci selezionate per i suoi modelli vocali. Sfoglia per genere e stile — i preset più profondi e autorevoli funzionano bene per la narrazione; quelli più luminosi, nella fascia media, rispondono meglio ai tag di emozione intensa.
- Incolla il tuo script con tag nel campo del prompt. Eleven v3 accetta fino a 5.000 caratteri per generazione.
- Imposta la lingua corrispondente allo script.
- Genera e ascolta. Se un tag è applicato in eccesso o in difetto, regola la sua posizione, aggiungi un altro tag per resettare l'interpretazione, o prova un preset vocale diverso.
La fatturazione avviene a 1 credito per ogni blocco di 50 caratteri iniziato. Uno script da 500 caratteri costa 10 crediti; uno da 5.000 caratteri costa 100 crediti. I blocchi parziali da 50 caratteri vengono arrotondati per eccesso.
Avviso
Quando usare Eleven v3 rispetto agli altri modelli vocali
Su OmniArt sono disponibili tre modelli ElevenLabs. Ecco quando scegliere ciascuno.
| Scenario | Modello migliore | Motivo |
|---|---|---|
| Performance emotivamente varia — un personaggio che ride, piange, urla | Eleven v3 | Gli audio tag e la sensibilità al contesto offrono il maggiore range espressivo |
| Narrazione multilingue stabile (50+ lingue) | Eleven Multilingual v2 | Interpretazione coerente e uniforme in molte lingue; 10.000 caratteri per generazione |
| Script lunghi con consegna rapida | Eleven Turbo v2.5 | Bassa latenza; 40.000 caratteri per generazione a 1 credito per 100 caratteri |
| Generazione economica o piano FREE | MiniMax Speech 2.8 HD / Turbo | Disponibile nel piano FREE; HD per qualità finale, Turbo per bozze |
Un modello mentale utile: usa il v3 quando lo script richiede una performance e l'interpretazione stessa porta significato. Usa Multilingual v2 quando l'obiettivo è una narrazione chiara e facile da seguire in molte lingue. Usa Turbo v2.5 quando hai uno script lungo, relativamente neutro, e hai bisogno di risultati rapidamente.
Consulta le pagine dei modelli per le specifiche complete: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.
Errori comuni di tagging da evitare
Tag eccessivi: aggiungere un tag a ogni frase appiattisce la variazione. I tag di emozione hanno più impatto quando arrivano dopo un tratto di interpretazione naturale non taggata. Usali per i picchi e le transizioni, non come strato costante.
Tag contraddittori: [shouting] immediatamente seguito da [whispers] senza alcuna frase tra loro può confondere il modello. Lascia una frase di interpretazione neutra tra contrasti forti.
Tag di accento senza test preliminare: il rendering dell'accento dipende dal preset vocale di base. Esegui una riga di prova da 50 caratteri prima di applicare un tag di accento a uno script lungo.
Tag in mezzo a una parola: i tag devono trovarsi tra parole complete o punteggiatura, non all'interno di una parola. Incre[excited]dible non sarà interpretato correttamente — scrivi invece [excited] Incredible.
Casi d'uso che ne traggono maggiore beneficio
Audiolibri con più personaggi: la combinazione di preset vocali e tag di interpretazione ti permette di distinguere il narratore dai personaggi e di dare a ciascuno una firma emotiva coerente. Consulta la guida al doppiaggio di MiniMax Speech per un flusso di lavoro comparabile su come costruire una produzione audio completa.
Dialoghi di videogiochi e narrativa interattiva: battute brevi e incisive con tag forti — [afraid] Stay back!, [laughs] You call that a plan? — creano NPC convincenti senza attori di doppiaggio personalizzati.
Narrazione YouTube con ampiezza emotiva: un documentario o un video esplicativo che alterna rivelazioni drammatiche, incisi umoristici e momenti di riflessione silenziosa trae vantaggio dai cambi di interpretazione. Tagga le transizioni e il ritmo si scrive da solo.
Media con dialogo e trailer: due o tre letture di personaggi da una singola generazione, ciascuna distinta da preset vocale e tag, comprimono una scena di dialogo in un unico passaggio del flusso di lavoro.
Inizia su OmniArt
Il modo più rapido per sviluppare l'orecchio per ciò che il v3 sa fare è prendere uno script che conosci bene — un monologo, l'apertura di un racconto, alcune battute di dialogo da un gioco — e taggarlo due volte: una con un tagging leggero, una con cambi di interpretazione aggressivi. Genera entrambi e confrontali. La differenza tra uno script leggermente diretto e uno completamente diretto è di solito evidente già dalla prima frase.
Apri Eleven v3 su OmniArt e incolla il tuo primo script taggato. Inizia con l'esempio di narrazione emotiva qui sopra, cambia il preset vocale e osserva cosa cambia. Una volta che il vocabolario dei tag ti sembrerà naturale, il modello diventa reattivo quanto una vera sessione di registrazione — senza lo studio.
Per una panoramica completa di tutti i modelli audio disponibili su OmniArt, inclusi musica ed effetti sonori, consulta la guida completa allo spazio audio.
Pronto a creare?
Inizia a generare contenuti straordinari con l’AI