tutorialTutorial e guide pratiche10 min di lettura

Audio tag di Eleven v3: come dirigere voci IA espressive con precisione

Scopri come usare gli audio tag di ElevenLabs v3 — emozione, interpretazione, accento e persona tra parentesi quadre — per dirigere performance vocali espressive con IA su OmniArt.

Team OmniArt13 giu 2026

La maggior parte degli strumenti di sintesi vocale legge uno script sempre nello stesso modo: piatto, cadenzato e leggermente robotico. Eleven v3 è diverso. Comprende la texture emotiva del tuo script e, con gli audio tag, puoi dargli istruzioni esplicite — proprio come un direttore vocale indica a un doppiatore come interpretare una battuta prima di una registrazione.

Gli audio tag sono parole o brevi frasi tra parentesi quadre inserite direttamente nello script. Dicono al modello come consegnare la riga successiva: bisbigliarla, gridarla, colorirla con un accento britannico o spezzarla a metà frase con un sospiro. Questa guida copre il vocabolario completo dei tag disponibili su OmniArt, come scrivere script multi-personaggio che li usano e come decidere quando Eleven v3 è il modello giusto per il lavoro.

Cosa sono gli audio tag?

Gli audio tag sono indicazioni di regia tra parentesi quadre — [whispers], [excited], [British accent] — nel punto dello script in cui si vuole cambiare l'interpretazione. Eleven v3 li interpreta come istruzioni, non come parole da pronunciare, e regola tono, ritmo e affetto di conseguenza.

La differenza fondamentale rispetto ai vecchi sistemi TTS è che il v3 interpreta il contesto. Non applica un filtro generalizzato: pesa il tag rispetto alla frase circostante, così [sighs] prima di «I suppose you're right» produce un risultato diverso da [sighs] prima di «Fine, let's go.» È questa sensibilità contestuale a rendere gli script con tag diretti, non semplicemente processati.

Suggerimento

Posiziona il tag immediatamente prima della frase che deve influenzare. Un tag all'inizio di un paragrafo governa l'interpretazione fino al tag successivo o fino a un reset tonale naturale.

Il vocabolario degli audio tag

La tabella seguente organizza le principali categorie di tag con esempi. Sono le indicazioni a cui Eleven v3 risponde in modo affidabile su OmniArt.

Tag di emozione

Tag	Effetto
`[excited]`	Energia elevata, ritmo più rapido, tono più luminoso
`[sad]`	Interpretazione più lenta, più bassa, più trattenuta
`[angry]`	Spezzato, incisivo, volume elevato
`[nervous]`	Ritmo leggermente irregolare, volume generale più basso
`[happy]`	Caldo, vivace, risonanza aperta
`[tired]`	Più lento, più piatto, sforzo ridotto
`[afraid]`	Teso, trattenuto, respiro ridotto
`[disgusted]`	Affetto piatto con lieve disprezzo
`[surprised]`	Attacco di tono più alto, frase più breve

Tag di interpretazione

Tag	Effetto
`[whispers]`	Sussurrato, volume basso, intimità
`[shouting]`	Volume alto, proiettato, risonanza ampia
`[pause]`	Pausa naturale inserita in quel punto
`[slowly]`	Tempo allungato senza variazione di altezza
`[fast]`	Tempo compresso, energia maggiore
`[sighs]`	Espirazione udibile tessuta all'inizio della frase
`[laughs]`	Aggiunge una breve risata naturale prima o durante la battuta
`[crying]`	Voce spezzata, qualità umida nell'interpretazione

Tag di personaggio e persona

Tag	Effetto
`[pirate voice]`	Teatrale, ringhiante, cadenza esagerata
`[robot voice]`	Spezzato, monotono, qualità sintetica
`[narrator]`	Autorevole, misurato, registro documentaristico
`[announcer]`	Proiettato, formale, qualità radiofonica
`[childlike]`	Tono più acuto, frasi più brevi, giocoso

Tag di accento

Tag	Effetto
`[British accent]`	Qualità Received Pronunciation
`[Southern US accent]`	Vocali calde e strascicate
`[Australian accent]`	Intonazione ascendente in chiusura di frase
`[Irish accent]`	Melodico, arrotondamento delle vocali caratteristico
`[New York accent]`	Consonanti nette, registro medio nasale

Nota

I tag di accento si sovrappongono al preset vocale di base. I risultati variano a seconda del preset — alcune voci rispondono con maggiore intensità. Genera una breve riga di prova prima di applicare un tag di accento a uno script lungo.

Tabella di riferimento rapido

Scopo	Esempi di tag
Emozione — positiva	`[excited]`, `[happy]`, `[surprised]`
Emozione — negativa	`[sad]`, `[angry]`, `[tired]`, `[afraid]`, `[nervous]`
Volume / proiezione	`[whispers]`, `[shouting]`
Tempo	`[slowly]`, `[fast]`
Suoni naturali	`[sighs]`, `[laughs]`, `[crying]`, `[pause]`
Registro di personaggio	`[pirate voice]`, `[robot voice]`, `[narrator]`, `[announcer]`, `[childlike]`
Accento	`[British accent]`, `[Southern US accent]`, `[Australian accent]`, `[Irish accent]`, `[New York accent]`

Scrivere uno script con tag: due esempi

Esempio 1 — narrazione emotiva

Questa è una breve apertura per un capitolo di audiolibro. I tag fanno evolvere l'umore al mutare della scena.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

Il tag [narrator] stabilisce un registro misurato fin dall'inizio. [slowly] con [pause] crea uno spazio drammatico. [tired] appesantisce l'interpretazione prima che [whispers] la abbassi a qualcosa di intimo e sottovoce. [sighs] aggiunge un respiro fisico che rende l'ultima battuta guadagnata.

Esempio 2 — dialogo tra due personaggi

Eleven v3 è in grado di gestire letture multi-locutore da un singolo prompt. Usa etichette di personaggio e tag di interpretazione per distinguere ogni voce.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Suggerimento

Per gli script multi-personaggio, scegli due preset vocali con registri di base nettamente differenti — uno più profondo, uno più leggero — in modo che la distinzione tra i personaggi emerga anche senza etichette visive di locutore nell'output audio.

Come usare gli audio tag su OmniArt

Vai alla modalità audio e seleziona la scheda Parlato (Speech).
Scegli Eleven v3 dal menu dei modelli. È disponibile nel piano STARTER e superiori.
Seleziona un preset vocale. OmniArt offre 353 voci selezionate per i suoi modelli vocali. Sfoglia per genere e stile — i preset più profondi e autorevoli funzionano bene per la narrazione; quelli più luminosi, nella fascia media, rispondono meglio ai tag di emozione intensa.
Incolla il tuo script con tag nel campo del prompt. Eleven v3 accetta fino a 5.000 caratteri per generazione.
Imposta la lingua corrispondente allo script.
Genera e ascolta. Se un tag è applicato in eccesso o in difetto, regola la sua posizione, aggiungi un altro tag per resettare l'interpretazione, o prova un preset vocale diverso.

La fatturazione avviene a 1 credito per ogni blocco di 50 caratteri iniziato. Uno script da 500 caratteri costa 10 crediti; uno da 5.000 caratteri costa 100 crediti. I blocchi parziali da 50 caratteri vengono arrotondati per eccesso.

Avviso

OmniArt non offre clonazione vocale, cursori di velocità né controlli del pitch per Eleven v3. Tutta la variazione di interpretazione proviene dal testo dello script e dagli audio tag.

Quando usare Eleven v3 rispetto agli altri modelli vocali

Su OmniArt sono disponibili tre modelli ElevenLabs. Ecco quando scegliere ciascuno.

Scenario	Modello migliore	Motivo
Performance emotivamente varia — un personaggio che ride, piange, urla	Eleven v3	Gli audio tag e la sensibilità al contesto offrono il maggiore range espressivo
Narrazione multilingue stabile (50+ lingue)	Eleven Multilingual v2	Interpretazione coerente e uniforme in molte lingue; 10.000 caratteri per generazione
Script lunghi con consegna rapida	Eleven Turbo v2.5	Bassa latenza; 40.000 caratteri per generazione a 1 credito per 100 caratteri
Generazione economica o piano FREE	MiniMax Speech 2.8 HD / Turbo	Disponibile nel piano FREE; HD per qualità finale, Turbo per bozze

Un modello mentale utile: usa il v3 quando lo script richiede una performance e l'interpretazione stessa porta significato. Usa Multilingual v2 quando l'obiettivo è una narrazione chiara e facile da seguire in molte lingue. Usa Turbo v2.5 quando hai uno script lungo, relativamente neutro, e hai bisogno di risultati rapidamente.

Consulta le pagine dei modelli per le specifiche complete: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Errori comuni di tagging da evitare

Tag eccessivi: aggiungere un tag a ogni frase appiattisce la variazione. I tag di emozione hanno più impatto quando arrivano dopo un tratto di interpretazione naturale non taggata. Usali per i picchi e le transizioni, non come strato costante.

Tag contraddittori: [shouting] immediatamente seguito da [whispers] senza alcuna frase tra loro può confondere il modello. Lascia una frase di interpretazione neutra tra contrasti forti.

Tag di accento senza test preliminare: il rendering dell'accento dipende dal preset vocale di base. Esegui una riga di prova da 50 caratteri prima di applicare un tag di accento a uno script lungo.

Tag in mezzo a una parola: i tag devono trovarsi tra parole complete o punteggiatura, non all'interno di una parola. Incre[excited]dible non sarà interpretato correttamente — scrivi invece [excited] Incredible.

Casi d'uso che ne traggono maggiore beneficio

Audiolibri con più personaggi: la combinazione di preset vocali e tag di interpretazione ti permette di distinguere il narratore dai personaggi e di dare a ciascuno una firma emotiva coerente. Consulta la guida al doppiaggio di MiniMax Speech per un flusso di lavoro comparabile su come costruire una produzione audio completa.

Dialoghi di videogiochi e narrativa interattiva: battute brevi e incisive con tag forti — [afraid] Stay back!, [laughs] You call that a plan? — creano NPC convincenti senza attori di doppiaggio personalizzati.

Narrazione YouTube con ampiezza emotiva: un documentario o un video esplicativo che alterna rivelazioni drammatiche, incisi umoristici e momenti di riflessione silenziosa trae vantaggio dai cambi di interpretazione. Tagga le transizioni e il ritmo si scrive da solo.

Media con dialogo e trailer: due o tre letture di personaggi da una singola generazione, ciascuna distinta da preset vocale e tag, comprimono una scena di dialogo in un unico passaggio del flusso di lavoro.

Inizia su OmniArt

Il modo più rapido per sviluppare l'orecchio per ciò che il v3 sa fare è prendere uno script che conosci bene — un monologo, l'apertura di un racconto, alcune battute di dialogo da un gioco — e taggarlo due volte: una con un tagging leggero, una con cambi di interpretazione aggressivi. Genera entrambi e confrontali. La differenza tra uno script leggermente diretto e uno completamente diretto è di solito evidente già dalla prima frase.

Apri Eleven v3 su OmniArt e incolla il tuo primo script taggato. Inizia con l'esempio di narrazione emotiva qui sopra, cambia il preset vocale e osserva cosa cambia. Una volta che il vocabolario dei tag ti sembrerà naturale, il modello diventa reattivo quanto una vera sessione di registrazione — senza lo studio.

Per una panoramica completa di tutti i modelli audio disponibili su OmniArt, inclusi musica ed effetti sonori, consulta la guida completa allo spazio audio.

Pronto a creare?

Inizia a generare contenuti straordinari con l’AI

Inizia gratis