tutorialTutorials und Anleitungen9 Min. Lesezeit

Eleven v3 Audio-Tags: expressive KI-Stimmen präzise steuern

Erfahren Sie, wie Sie ElevenLabs v3 Audio-Tags — Emotion, Interpretation, Akzent und Persona in eckigen Klammern — nutzen, um ausdrucksstarke KI-Sprachperformances auf OmniArt zu dirigieren.

OmniArt-Team
Eleven v3 Audio-Tags: expressive KI-Stimmen präzise steuern

Die meisten Text-zu-Sprache-Werkzeuge lesen ein Skript immer auf dieselbe Weise vor: flach, gleichmäßig und leicht roboterhaft. Eleven v3 ist anders. Es versteht die emotionale Textur Ihres Skripts und mit Audio-Tags können Sie ihm explizite Anweisungen geben — genau wie ein Sprachregisseur einem Sprecher vor einer Aufnahme Regie gibt.

Audio-Tags sind kurze Wörter oder Phrasen in eckigen Klammern, die direkt in das Skript eingebettet werden. Sie teilen dem Modell mit, wie es die nächste Zeile sprechen soll: flüstern, schreien, mit britischem Akzent färben oder mitten im Satz mit einem Seufzer unterbrechen. Dieser Leitfaden behandelt das vollständige Tag-Vokabular auf OmniArt, das Schreiben von Mehrpersonen-Skripten mit Audio-Tags und die Entscheidung, wann Eleven v3 das richtige Modell für die jeweilige Aufgabe ist.

Was sind Audio-Tags?

Audio-Tags sind eingebettete Regieanweisungen in eckigen Klammern — [whispers], [excited], [British accent] — an der Stelle im Skript, an der sich die Sprechweise ändern soll. Eleven v3 interpretiert sie als Anweisungen, nicht als auszusprechende Wörter, und passt Ton, Tempo und Ausdruck entsprechend an.

Der entscheidende Unterschied zu älteren TTS-Systemen ist, dass der v3 den Kontext versteht. Er wendet keinen pauschalen Filter an: Er gewichtet den Tag im Verhältnis zum umgebenden Satz, sodass [sighs] vor „I suppose you're right" ein anderes Ergebnis liefert als [sighs] vor „Fine, let's go." Diese Kontextsensitivität sorgt dafür, dass gebaligte Skripte dirigiert klingen, nicht lediglich verarbeitet.

Tipp

Platzieren Sie den Tag unmittelbar vor der Phrase, die er beeinflussen soll. Ein Tag am Anfang eines Absatzes bestimmt die Sprechweise bis zum nächsten Tag oder bis zu einem natürlichen Ton-Reset.

Das Audio-Tag-Vokabular

Die folgende Tabelle ordnet alle wichtigen Tag-Kategorien mit Beispielen. Dies sind die Anweisungen, auf die Eleven v3 auf OmniArt zuverlässig reagiert.

Emotions-Tags

TagWirkung
[excited]Erhöhte Energie, schnelleres Tempo, hellerer Klang
[sad]Langsamere, tiefere, gedämpftere Sprechweise
[angry]Abgehackt, eindringlich, höheres Lautstärkeniveau
[nervous]Leicht ungleichmäßiges Tempo, generell leiser
[happy]Warm, lebhaft, offene Resonanz
[tired]Langsamer, flacher, weniger Energie
[afraid]Angespannt, zurückgehalten, weniger Atemgeräusch
[disgusted]Flacher Ausdruck mit leichter Verachtung
[surprised]Höherer Tonansatz, kürzere Phrase

Interpretations-Tags

TagWirkung
[whispers]Geflüstert, niedrige Lautstärke, Intimität
[shouting]Hohe Lautstärke, projiziert, breite Resonanz
[pause]Natürliche Pause an dieser Stelle eingefügt
[slowly]Gestrecktes Tempo ohne Tonhöhenveränderung
[fast]Komprimiertes Tempo, höhere Energie
[sighs]Hörbares Ausatmen zu Beginn der Phrase eingewoben
[laughs]Fügt ein kurzes natürliches Lachen vor oder während der Zeile ein
[crying]Gebrochene, feuchte Sprechqualität

Charakter- und Persona-Tags

TagWirkung
[pirate voice]Theatralisch, knurrend, übertriebene Kadenz
[robot voice]Abgehackt, monoton, synthetische Qualität
[narrator]Autoritativ, gemessen, dokumentarischer Stil
[announcer]Projiziert, förmlich, Rundfunk-Qualität
[childlike]Höhere Tonlage, kürzere Phrasen, verspielt

Akzent-Tags

TagWirkung
[British accent]Received-Pronunciation-Qualität
[Southern US accent]Warme, gedehnte Vokale
[Australian accent]Steigende Intonation am Phrasende
[Irish accent]Melodisch, charakteristische Vokalrundung
[New York accent]Abgehackte Konsonanten, nasales Mittelregister

Hinweis

Akzent-Tags überlagern das Basis-Stimmen-Preset. Die Ergebnisse variieren je nach Preset — manche Stimmen reagieren stärker als andere. Generieren Sie eine kurze Testzeile, bevor Sie einen Akzent-Tag auf ein langes Skript anwenden.

Schnellübersicht

ZweckBeispiel-Tags
Emotion — positiv[excited], [happy], [surprised]
Emotion — negativ[sad], [angry], [tired], [afraid], [nervous]
Lautstärke / Projektion[whispers], [shouting]
Tempo[slowly], [fast]
Natürliche Geräusche[sighs], [laughs], [crying], [pause]
Charakterregister[pirate voice], [robot voice], [narrator], [announcer], [childlike]
Akzent[British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent]

Ein gebaliztes Skript schreiben: zwei Beispiele

Beispiel 1 — Emotionale Narration

Dies ist ein kurzer Einstieg für ein Hörbuch-Kapitel. Die Tags verschieben die Stimmung, wenn sich die Szene verändert.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

Der [narrator]-Tag setzt von Anfang an ein gemessenes Register. [slowly] mit einer [pause] schafft dramatischen Raum. [tired] zieht die Sprechweise nach unten, bevor [whispers] sie leise und intim macht. [sighs] fügt ein physisches Atemgeräusch hinzu, das den letzten Satz wie ein hart erkämpftes Fazit klingen lässt.

Beispiel 2 — Dialog zwischen zwei Figuren

Eleven v3 kann Mehrpersonen-Lesungen aus einem einzigen Prompt verarbeiten. Verwenden Sie Figurenbezeichnungen und Interpretations-Tags, um jede Stimme zu unterscheiden.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Tipp

Wählen Sie für Mehrpersonen-Skripte zwei Stimmen-Presets mit deutlich unterschiedlichen Basisregistern — eine tiefere, eine hellere — damit die Figurenunterscheidung auch ohne visuelle Sprecher-Labels im Audiooutput klar erkennbar ist.

Audio-Tags auf OmniArt verwenden

  1. Öffnen Sie den Audio-Modus und wählen Sie den Tab Sprache (Speech).
  2. Wählen Sie Eleven v3 im Modellmenü. Es ist ab dem STARTER-Tarif verfügbar.
  3. Wählen Sie ein Stimmen-Preset. OmniArt bietet 353 kuratierte Stimmen für seine Sprachmodelle. Suchen Sie nach Geschlecht und Stil — tiefere, autoritäre Presets eignen sich gut für Erzählungen; hellere, mittellagige Presets reagieren besser auf starke Emotions-Tags.
  4. Fügen Sie Ihr gebaliztes Skript in das Prompt-Feld ein. Eleven v3 akzeptiert bis zu 5.000 Zeichen pro Generierung.
  5. Stellen Sie die Sprache passend zum Skript ein.
  6. Generieren und anhören. Wenn ein Tag zu stark oder zu schwach angewendet wird, passen Sie seine Position an, fügen Sie einen weiteren Tag ein, um die Sprechweise zurückzusetzen, oder probieren Sie ein anderes Stimmen-Preset.

Die Abrechnung erfolgt mit 1 Credit pro angebrochenen 50-Zeichen-Block. Ein Skript mit 500 Zeichen kostet 10 Credits; ein Skript mit 5.000 Zeichen kostet 100 Credits. Angefangene 50-Zeichen-Blöcke werden aufgerundet.

Warnung

OmniArt bietet für Eleven v3 kein Stimmenklonen, keine Geschwindigkeitsregler und keine Tonhöhensteuerung. Alle Interpretationsvariationen entstehen ausschließlich durch Skripttext und Audio-Tags.

Wann Eleven v3, wann ein anderes Sprachmodell?

Drei ElevenLabs-Modelle stehen auf OmniArt zur Verfügung. Hier eine Übersicht, wann welches sinnvoll ist.

SzenarioBestes ModellBegründung
Emotional vielfältige Performance — eine Figur, die lacht, weint, schreitEleven v3Audio-Tags und Kontextsensitivität bieten das größte Ausdrucksspektrum
Stabile mehrsprachige Narration (50+ Sprachen)Eleven Multilingual v2Konsistente, gleichmäßige Sprechweise über viele Sprachen; 10.000 Zeichen pro Generierung
Lange Skripte mit schnellem ErgebnisEleven Turbo v2.5Geringe Latenz; 40.000 Zeichen pro Generierung bei 1 Credit pro 100 Zeichen
Kostengünstige Generierung oder FREE-TarifMiniMax Speech 2.8 HD / TurboIm FREE-Tarif verfügbar; HD für Endqualität, Turbo für Entwürfe

Ein nützliches Denkmodell: Nutzen Sie den v3, wenn das Skript eine Performance verlangt und die Sprechweise selbst Bedeutung trägt. Nutzen Sie Multilingual v2, wenn das Ziel klare, gut verständliche Narration in vielen Sprachen ist. Nutzen Sie Turbo v2.5, wenn Sie ein langes, relativ neutrales Skript haben und schnelle Ergebnisse benötigen.

Die vollständigen Spezifikationen finden Sie auf den Modell-Seiten: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Häufige Fehler beim Baligen vermeiden

Übermäßiges Baligen: Wenn jeder Satz einen Tag enthält, wird die Variation eingeebnet. Emotions-Tags wirken stärker, wenn sie nach einem Abschnitt natürlicher, ungebaligter Sprechweise auftreten. Setzen Sie sie für Höhepunkte und Übergänge ein, nicht als konstante Schicht.

Widersprüchliche Tags: [shouting] unmittelbar gefolgt von [whispers] ohne Satz dazwischen kann das Modell verwirren. Lassen Sie zwischen starken Kontrasten einen neutral gesprochenen Satz.

Akzent-Tags ohne Test: Das Akzent-Ergebnis hängt vom Basis-Stimmen-Preset ab. Testen Sie eine 50-Zeichen-Zeile, bevor Sie einen Akzent-Tag auf ein langes Skript anwenden.

Tags mitten in einem Wort: Tags müssen zwischen vollständigen Wörtern oder Satzzeichen stehen, nicht innerhalb eines Wortes. Incre[excited]dible wird nicht korrekt verarbeitet — schreiben Sie stattdessen [excited] Incredible.

Anwendungsfälle mit dem größten Mehrwert

Hörbücher mit mehreren Figuren: Die Kombination aus Stimmen-Presets und Interpretations-Tags ermöglicht es, Erzähler und Figuren klar zu unterscheiden und jeder Figur eine konsistente emotionale Handschrift zu geben. Eine vergleichbare Produktionsweise für eine vollständige Audioproduktion zeigt der MiniMax-Speech-Synchronleitfaden.

Spieldialoge und interaktive Fiktion: Kurze, prägnante Zeilen mit starken Tags — [afraid] Stay back!, [laughs] You call that a plan? — erzeugen glaubwürdige NPCs ohne individuelle Sprecher.

YouTube-Narration mit emotionalem Spektrum: Ein Dokumentarfilm oder Erklärvideo, das zwischen dramatischen Enthüllungen, humoristischen Einschüben und stiller Reflexion wechselt, profitiert von Sprechweise-Wechseln. Markieren Sie die Übergänge, und das Pacing ergibt sich von selbst.

Dialog-getriebene Medien und Trailer: Zwei oder drei Figurenlesungen aus einer einzigen Generierung, jede durch Stimmen-Preset und Tags unterschieden, komprimieren eine Dialogszene in einen einzigen Produktionsschritt.

Erste Schritte auf OmniArt

Der schnellste Weg, ein Gespür dafür zu entwickeln, was der v3 kann, ist ein Skript, das Sie gut kennen — ein Monolog, ein Kurzgeschichten-Einstieg, einige Zeilen Spieledialog — zweimal zu baligen: einmal leicht, einmal mit aggressiven Sprechweise-Wechseln. Generieren Sie beide und vergleichen Sie. Der Unterschied zwischen einem leicht dirigierten und einem vollständig dirigierten Skript zeigt sich in der Regel bereits beim ersten Satz.

Öffnen Sie Eleven v3 auf OmniArt und fügen Sie Ihr erstes gebaliztes Skript ein. Beginnen Sie mit dem obigen Beispiel für emotionale Narration, wechseln Sie das Stimmen-Preset und beobachten Sie, was sich verändert. Sobald das Tag-Vokabular sich natürlich anfühlt, wird das Modell so reaktionsfähig wie eine echte Aufnahmesession — ohne Studio.

Eine umfassende Übersicht aller Audiomodelle auf OmniArt, einschließlich Musik und Soundeffekte, finden Sie im vollständigen Audio-Workspace-Leitfaden.

Bereit zum Erstellen?

Starte mit KI die Erstellung beeindruckender Inhalte

Kostenlos starten