tutorialTutorial dan panduan cara9 menit baca

Panduan lengkap audio tags Eleven v3: kendalikan performa suara AI

Pelajari cara menggunakan audio tags ElevenLabs v3 di OmniArt — tag emosi, gaya penyampaian, aksen, dan persona dalam tanda kurung siku — untuk mengarahkan performa suara AI yang ekspresif.

Tim OmniArt13 Jun 2026

Kebanyakan alat text-to-speech membaca skrip dengan cara yang sama setiap saat: datar, teratur, dan sedikit terasa seperti robot. Eleven v3 berbeda. Model ini memahami tekstur emosional skrip Anda, dan dengan audio tags, Anda bisa memberikan arahan yang jelas — sama seperti seorang sutradara suara memberi isyarat kepada pemain sebelum pengambilan suara.

Audio tags adalah kata atau frasa pendek dalam tanda kurung siku yang disematkan langsung ke dalam skrip. Tags ini memberi tahu model cara menyampaikan baris berikutnya: bisikkan, teriakkan, beri aksen Inggris, atau potong di tengah kalimat dengan desahan. Panduan ini mencakup seluruh kosakata tag yang tersedia di OmniArt, cara menulis skrip multi-karakter yang menggunakannya, dan cara memutuskan kapan Eleven v3 adalah model yang tepat.

Apa itu audio tags?

Audio tags adalah petunjuk arahan inline yang ditempatkan dalam tanda kurung siku — [whispers] (berbisik), [excited] (bersemangat), [British accent] (aksen Inggris) — di titik dalam skrip tempat Anda ingin cara penyampaian berubah. Eleven v3 menguraikannya sebagai instruksi bukan kata-kata yang diucapkan, dan menyesuaikan nada, kecepatan, serta ekspresi secara tepat.

Perbedaan utama dari TTS lama adalah v3 menginterpretasikan konteks. Model tidak hanya menerapkan filter menyeluruh: ia menimbang tag terhadap kalimat di sekitarnya, sehingga [sighs] sebelum "Kurasa kamu benar" menghasilkan hasil yang berbeda dari [sighs] sebelum "Baik, ayo pergi." Kepekaan konteks inilah yang membuat skrip bertag terdengar seperti diarahkan, bukan diproses.

Tips

Tempatkan tag tepat sebelum frasa yang ingin dipengaruhinya. Tag di awal paragraf mengontrol cara penyampaian hingga tag berikutnya atau reset nada alami.

Kosakata audio tags

Tabel di bawah ini mengorganisasi setiap kategori tag utama beserta contohnya. Ini adalah isyarat yang diandalkan Eleven v3 di OmniArt.

Tag emosi

Tag	Efek
`[excited]`	Energi meningkat, kecepatan lebih cepat, nada lebih cerah
`[sad]`	Lebih lambat, lebih rendah, penyampaian lebih tertahan
`[angry]`	Singkat, kuat, volume meningkat
`[nervous]`	Kecepatan agak tidak merata, keseluruhan lebih pelan
`[happy]`	Hangat, bersemangat, resonansi terbuka
`[tired]`	Lebih lambat, lebih datar, usaha rendah
`[afraid]`	Tegang, tertahan, napas berkurang
`[disgusted]`	Ekspresi datar dengan sedikit rasa jijik
`[surprised]`	Nada awal lebih tinggi, frasa lebih pendek

Tag gaya penyampaian

Tag	Efek
`[whispers]`	Hembusan napas, volume rendah, intim
`[shouting]`	Volume tinggi, terproyeksi, resonansi lebar
`[pause]`	Jeda atau hentian alami disisipkan di sini
`[slowly]`	Tempo diperlambat tanpa perubahan nada
`[fast]`	Tempo dipadatkan, energi meningkat
`[sighs]`	Desahan yang terdengar dijalin ke awal frasa
`[laughs]`	Menambahkan tawa alami pendek sebelum atau selama baris
`[crying]`	Penyampaian terputus-putus dan basah karena tangisan

Tag karakter dan persona

Tag	Efek
`[pirate voice]`	Teatrikal, bergumam, kadensa dibesar-besarkan
`[robot voice]`	Singkat, monoton, kualitas sintetis
`[narrator]`	Berwibawa, terukur, register dokumenter
`[announcer]`	Terproyeksi, formal, kualitas siaran
`[childlike]`	Nada lebih tinggi, frasa lebih pendek, ceria

Tag aksen

Tag	Efek
`[British accent]`	Kualitas Received Pronunciation
`[Southern US accent]`	Hangat, vokal memanjang
`[Australian accent]`	Intonasi naik di akhir kalimat
`[Irish accent]`	Melodis, pembulatan vokal yang khas
`[New York accent]`	Konsonan pendek, resonansi hidung di register tengah

Catatan

Tag aksen berlapis di atas preset suara dasar. Hasilnya bervariasi menurut preset — beberapa suara merespons lebih kuat terhadap tag aksen daripada yang lain. Buat baris uji pendek sebelum melakukan skrip panjang.

Lembar curang tag

Tujuan	Contoh tag
Emosi — positif	`[excited]`, `[happy]`, `[surprised]`
Emosi — negatif	`[sad]`, `[angry]`, `[tired]`, `[afraid]`, `[nervous]`
Volume / proyeksi	`[whispers]`, `[shouting]`
Tempo	`[slowly]`, `[fast]`
Suara alami	`[sighs]`, `[laughs]`, `[crying]`, `[pause]`
Register karakter	`[pirate voice]`, `[robot voice]`, `[narrator]`, `[announcer]`, `[childlike]`
Aksen	`[British accent]`, `[Southern US accent]`, `[Australian accent]`, `[Irish accent]`, `[New York accent]`

Menulis skrip bertag: dua contoh

Contoh 1 — narasi emosional

Ini adalah pembuka singkat untuk satu bab buku audio. Tag menggeser suasana saat adegan berubah.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

Tag [narrator] menetapkan register terukur sejak awal. [slowly] dengan [pause] menciptakan ruang dramatis. [tired] memberatkan penyampaian sebelum [whispers] menariknya rendah dan intim. [sighs] menambahkan napas fisik yang membuat baris terakhir terasa bermakna.

Contoh 2 — dialog dua karakter

Eleven v3 dapat menangani pembacaan multi-pembicara dari satu prompt. Gunakan label karakter dan tag penyampaian untuk membedakan setiap suara.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Tips

Untuk skrip multi-karakter, pilih dua preset suara dengan register dasar yang jelas berbeda — satu lebih dalam, satu lebih ringan — agar perbedaan karakter terasa meskipun tanpa label pembicara visual dalam output audio.

Cara menggunakan audio tags di OmniArt

Buka mode Audio dan pilih tab Speech.
Pilih Eleven v3 dari menu model. Tersedia di paket STARTER ke atas.
Pilih preset suara. OmniArt menawarkan 353 suara pilihan di seluruh model suara. Telusuri berdasarkan jenis kelamin dan gaya — preset yang lebih dalam dan berwibawa cocok untuk narasi; preset cerah dan menengah merespons baik terhadap tag emosi yang kuat.
Tempelkan skrip bertag ke kolom prompt. Eleven v3 menerima hingga 5.000 karakter per pembuatan.
Atur bahasanya sesuai skrip Anda.
Buat dan dengarkan. Jika tag terlalu kuat atau terlalu lemah diterapkan, sesuaikan posisinya, tambahkan tag lain untuk mereset penyampaian, atau coba preset suara berbeda.

Penagihan berjalan 1 kredit per blok 50 karakter yang dimulai. Skrip 500 karakter menghabiskan 10 kredit; skrip 5.000 karakter menghabiskan 100 kredit. Blok 50 karakter yang tidak penuh dibulatkan ke atas.

Peringatan

OmniArt tidak menawarkan kloning suara, penggeser kecepatan, atau kontrol nada untuk Eleven v3. Semua variasi penyampaian berasal dari teks skrip dan audio tags.

Kapan menggunakan Eleven v3 vs model suara lain

OmniArt menyediakan tiga model ElevenLabs. Berikut kapan harus memilih masing-masing.

Skenario	Model terbaik	Alasan
Performa emosi beragam — karakter yang tertawa, menangis, berteriak	Eleven v3	Audio tags dan kesadaran konteks memberikan jangkauan ekspresif paling luas
Narasi multibahasa stabil (50+ bahasa)	Eleven Multilingual v2	Penyampaian konsisten dan merata di seluruh bahasa; 10.000 karakter per pembuatan
Skrip panjang dengan pemrosesan cepat	Eleven Turbo v2.5	Latensi rendah; 40.000 karakter per pembuatan dengan 1 kredit per 100 karakter
Anggaran terbatas atau pembuatan tier FREE	MiniMax Speech 2.8 HD / Turbo	Tersedia di tier FREE; HD untuk kualitas selesai, Turbo untuk draf

Model mental yang berguna: gunakan v3 saat skrip membutuhkan performa dan penyampaian itu sendiri membawa makna. Gunakan Multilingual v2 saat tujuannya adalah narasi jelas yang mudah diikuti dalam banyak bahasa. Gunakan Turbo v2.5 saat Anda memiliki skrip panjang yang relatif netral dan membutuhkan hasil dengan cepat.

Lihat halaman model khusus untuk spesifikasi lengkap: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Kesalahan umum penandaan yang perlu dihindari

Terlalu banyak tag: menambahkan tag ke setiap kalimat akan meratakan variasi. Tag emosi lebih berdampak ketika muncul setelah rentang penyampaian alami tanpa tag. Gunakan untuk puncak dan transisi, bukan sebagai lapisan konstan.

Tag yang bertentangan: [shouting] diikuti langsung oleh [whispers] tanpa kalimat di antaranya dapat membingungkan model. Sisakan satu kalimat penyampaian netral di antara kontras yang kuat.

Tag aksen tanpa pengujian: penggambaran aksen bergantung pada preset suara dasar. Jalankan baris uji 50 karakter sebelum menerapkan tag aksen di seluruh skrip panjang.

Tag di tengah kata: tag harus berada di antara kata-kata lengkap atau tanda baca, bukan di dalam kata. Incre[excited]dible tidak akan diurai dengan benar — tulis [excited] Incredible sebagai gantinya.

Kasus penggunaan yang paling diuntungkan

Buku audio dengan banyak karakter: kombinasi preset suara dan tag penyampaian memungkinkan Anda membedakan narator dari karakter dan memberi setiap karakter tanda emosi yang konsisten. Lihat cara membangun produksi audio lengkap di panduan voiceover MiniMax Speech untuk alur kerja serupa.

Dialog game dan fiksi interaktif: baris singkat dan padat dengan tag kuat — [afraid] Stay back! (Mundur!), [laughs] You call that a plan? (Kamu menyebut itu rencana?) — menciptakan NPC yang meyakinkan tanpa aktor suara khusus.

Narasi YouTube dengan rentang emosi: dokumenter atau penjelas yang bergerak antara pengungkapan dramatis, sisipan humor, dan refleksi tenang mendapat manfaat dari pergeseran penyampaian. Tandai transisinya dan ritme akan terbentuk sendiri.

Media berbasis dialog dan trailer: dua atau tiga karakter yang membaca dari satu pembuatan, masing-masing dibedakan oleh preset suara dan tag, memadatkan adegan dialog menjadi satu langkah alur kerja.

Mulai di OmniArt

Cara tercepat mengembangkan kepekaan terhadap kemampuan v3 adalah mengambil skrip yang sudah Anda kenal — monolog, pembuka cerita pendek, beberapa baris dialog game — dan menaruh tag dua kali: sekali dengan penandaan ringan, sekali dengan pergeseran penyampaian yang agresif. Buat keduanya dan bandingkan. Perbedaan antara skrip yang diarahkan sedikit dan yang diarahkan penuh biasanya jelas sejak kalimat pertama.

Buka Eleven v3 di OmniArt dan tempelkan skrip bertag pertama Anda. Mulai dengan contoh narasi emosional di atas, ganti preset suaranya, dan lihat apa yang berubah. Saat kosakata tag terasa alami, model menjadi responsif seperti sesi rekaman nyata — tanpa studio.

Untuk tampilan lebih luas tentang setiap model audio yang tersedia di OmniArt, termasuk musik dan efek suara, lihat panduan lengkap ruang kerja audio.

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis