tutorialÖğreticiler ve nasıl yapılır rehberleri9 dk okuma

Eleven v3 ses etiketleri: ifadeli yapay zeka sesleri nasıl yönetilir

ElevenLabs v3 ses etiketlerini — köşeli parantez içindeki duygu, sunum, aksan ve karakter ipuçlarını — OmniArt üzerinde ifadeli yapay zeka ses performansları yönetmek için nasıl kullanacağınızı öğrenin.

OmniArt Ekibi
Eleven v3 ses etiketleri: ifadeli yapay zeka sesleri nasıl yönetilir

Çoğu metinden sese dönüştürme aracı bir senaryoyu her seferinde aynı biçimde okur: düz, ölçülü ve hafifçe robotik. Eleven v3 farklıdır. Senaryonuzun duygusal dokusunu anlar ve ses etiketleri sayesinde bir ses yönetmeninin kayıt öncesinde seslendirme sanatçısına verdiği direktifler gibi açık yönergeler verebilirsiniz.

Ses etiketleri, senaryonuza doğrudan yerleştirilen köşeli parantez içindeki kısa sözcük veya ifadelerdir. Modele bir sonraki satırı nasıl sunacağını söylerler: fısıltıyla, bağırarak, İngiliz aksanıyla renklendirerek ya da bir iç çekişle cümlenin ortasında keserek. Bu rehber OmniArt'ta kullanılabilecek etiket sözcüğünü, çok karakterli senaryoların nasıl yazılacağını ve Eleven v3'ün ne zaman doğru model olduğunu ele almaktadır.

Ses etiketleri nedir?

Ses etiketleri, senaryonun sunumunun değişmesini istediğiniz noktaya köşeli parantez içinde yerleştirilen yönetmen ipuçlarıdır — [whispers], [excited], [British accent]. Eleven v3 bunları söylenecek sözcükler değil, talimat olarak yorumlar; tonu, tempoyu ve ifadeyi buna göre ayarlar.

Eski metinden sese sistemlerinden temel farkı, v3'ün bağlamı yorumlamasıdır. Genel bir filtre uygulamaz: etiketi çevreleyen cümleyle birlikte değerlendirir; dolayısıyla [sighs] etiketinin önüne "I suppose you're right" gelmesiyle "Fine, let's go." gelmesi farklı sonuçlar üretir. Bu bağlam duyarlılığı, etiketli senaryoları işlenmiş değil yönetilmiş gibi hissettiren unsurdur.

İpucu

Etiketi, etkilemesi gereken ifadenin hemen öncesine yerleştirin. Paragrafın başındaki bir etiket, bir sonraki etikete veya doğal bir tonal sıfırlamaya kadar sunumu yönetir.

Ses etiketi sözcüğü

Aşağıdaki tablo, başlıca etiket kategorilerini örneklerle düzenlemektedir. Bunlar, OmniArt'ta Eleven v3'ün güvenilir biçimde yanıt verdiği ipuçlarıdır.

Duygu etiketleri

EtiketEfekt
[excited]Yüksek enerji, daha hızlı tempo, daha parlak ton
[sad]Daha yavaş, daha alçak, daha kısık sunum
[angry]Kesik, güçlü, yüksek ses düzeyi
[nervous]Hafifçe düzensiz tempo, genel olarak daha sessiz
[happy]Sıcak, neşeli, açık tınlamalı
[tired]Daha yavaş, daha yassı, düşük çaba
[afraid]Gergin, sınırlandırılmış, azaltılmış nefes
[disgusted]Hafif küçümsemeyle düz duygu ifadesi
[surprised]Başlangıçta yüksek perde, daha kısa cümle

Sunum etiketleri

EtiketEfekt
[whispers]Fısıltı, düşük ses, samimilik
[shouting]Yüksek ses, projeksiyon, geniş tınlamalı
[pause]Bu noktaya doğal bir duraklama eklenir
[slowly]Perde değişikliği olmadan uzatılmış tempo
[fast]Sıkıştırılmış tempo, daha yüksek enerji
[sighs]Cümlenin başına işlenen duyulabilir bir nefes verme
[laughs]Satırdan önce veya sırasında kısa, doğal bir gülüş ekler
[crying]Sunumda kırık, ıslak bir kalite

Karakter ve persona etiketleri

EtiketEfekt
[pirate voice]Tiyatral, hırıltılı, abartılı kadans
[robot voice]Kesik, monoton, sentetik kalite
[narrator]Otoriter, ölçülü, belgesel tarzı
[announcer]Projektif, resmi, yayıncı kalitesi
[childlike]Daha yüksek perde, kısa ifadeler, oyunsu

Aksan etiketleri

EtiketEfekt
[British accent]Received Pronunciation kalitesi
[Southern US accent]Sıcak, uzatılmış ünlüler
[Australian accent]Cümle sonunda yükselen tonlama
[Irish accent]Melodik, karakteristik ünlü yuvarlama
[New York accent]Kesik ünsüzler, nazal orta bölge

Not

Aksan etiketleri temel ses önayarının üzerine katmanlanır. Sonuçlar önayara göre farklılık gösterir — bazı sesler diğerlerinden daha güçlü yanıt verir. Uzun bir senaryoya aksan etiketi uygulamadan önce kısa bir test satırı oluşturun.

Hızlı başvuru tablosu

AmaçÖrnek etiketler
Duygu — olumlu[excited], [happy], [surprised]
Duygu — olumsuz[sad], [angry], [tired], [afraid], [nervous]
Ses düzeyi / projeksiyon[whispers], [shouting]
Tempo[slowly], [fast]
Doğal sesler[sighs], [laughs], [crying], [pause]
Karakter kaydı[pirate voice], [robot voice], [narrator], [announcer], [childlike]
Aksan[British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent]

Etiketli senaryo yazmak: iki örnek

Örnek 1 — duygusal anlatım

Bu, bir sesli kitap bölümünün kısa bir açılışıdır. Etiketler, sahne değiştikçe ruh halini kaydırmaktadır.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

[narrator] etiketi başından itibaren ölçülü bir kayıt oluşturur. [pause] ile birleşen [slowly] dramatik bir alan yaratır. [tired] sunumu ağırlaştırmadan önce [whispers] onu alçak ve samimi bir düzeye çeker. [sighs], son cümlenin kazanılmış bir sonuç gibi hissettirilmesini sağlayan fiziksel bir nefes ekler.

Örnek 2 — iki karakterli diyalog

Eleven v3, tek bir istemden çok konuşmacılı okumalar oluşturabilir. Her sesi ayırt etmek için karakter etiketlerini ve sunum etiketlerini birlikte kullanın.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

İpucu

Çok karakterli senaryolarda, ses çıkışında görsel konuşmacı etiketleri olmasa bile karakter ayrımının belirgin olması için temel kayıtları açıkça farklı iki ses önayarı seçin — biri daha derin, diğeri daha hafif.

OmniArt'ta ses etiketleri nasıl kullanılır

  1. Ses moduna gidin ve Konuşma (Speech) sekmesini seçin.
  2. Model menüsünden Eleven v3'ü seçin. STARTER planı ve üzerinde kullanılabilir.
  3. Bir ses önayarı seçin. OmniArt, konuşma modelleri için 353 özenle seçilmiş ses sunar. Cinsiyet ve stile göre göz atın — daha derin ve otoriter önayarlar anlatım için, daha parlak orta aralık önayarlar ise güçlü duygu etiketlerine daha iyi yanıt verir.
  4. Etiketli senaryonuzu istem alanına yapıştırın. Eleven v3, üretim başına 5.000 karaktere kadar kabul eder.
  5. Dil ayarını senaryonuzla eşleşecek biçimde yapın.
  6. Oluşturun ve dinleyin. Bir etiket gereğinden fazla veya az uygulanıyorsa konumunu ayarlayın, sunumu sıfırlamak için başka bir etiket ekleyin ya da farklı bir ses önayarı deneyin.

Faturalandırma, başlanan her 50 karakterlik blok için 1 kredi üzerinden hesaplanır. 500 karakterlik bir senaryo 10 kredi, 5.000 karakterlik bir senaryo ise 100 kredi tutar. Yarım kalan 50 karakterlik bloklar yukarı yuvarlanır.

Uyarı

OmniArt, Eleven v3 için ses klonlama, hız kaydırıcısı veya perde kontrolü sunmamaktadır. Tüm sunum çeşitliliği senaryo metninden ve ses etiketlerinden gelir.

Eleven v3 ne zaman, diğer konuşma modelleri ne zaman kullanılmalı?

OmniArt'ta üç ElevenLabs modeli mevcuttur. Her biri için uygun kullanım senaryoları şunlardır:

SenaryoEn iyi modelNeden
Duygusal açıdan çeşitli performans — gülen, ağlayan, bağıran bir karakterEleven v3Ses etiketleri ve bağlam farkındalığı en geniş ifade aralığını sağlar
Kararlı çok dilli anlatım (50'den fazla dil)Eleven Multilingual v2Birçok dilde tutarlı, dengeli sunum; üretim başına 10.000 karakter
Hızlı teslimatlı uzun senaryolarEleven Turbo v2.5Düşük gecikme; üretim başına 40.000 karakter, 100 karakter başına 1 kredi
Ekonomik üretim veya FREE planMiniMax Speech 2.8 HD / TurboFREE planda kullanılabilir; HD nihai kalite için, Turbo taslaklar için

Yararlı bir zihinsel model: v3'ü senaryonun bir performans gerektirdiği ve sunumun bizzat anlam taşıdığı durumlarda kullanın. Multilingual v2'yi, birçok dilde kolay takip edilebilir net bir anlatım hedeflediğinizde tercih edin. Turbo v2.5'i ise uzun, görece nötr bir senaryonuz olduğunda ve hızlı sonuçlara ihtiyaç duyduğunuzda kullanın.

Tam özellikler için model sayfalarına bakın: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Yaygın etiketleme hatalarından kaçınma

Aşırı etiketleme: her cümleye etiket eklemek çeşitliliği düzleştirir. Duygu etiketleri, işaretsiz, doğal bir sunumun ardından geldiğinde daha güçlü etkiler. Bunları sürekli bir katman olarak değil, doruk noktaları ve geçişler için kullanın.

Çelişkili etiketler: aralarında hiç cümle olmadan [shouting] hemen ardından [whispers] gelmesi modeli karıştırabilir. Güçlü zıtlıklar arasında nötr bir sunum cümlesi bırakın.

Test yapmadan aksan etiketi kullanmak: aksan oluşturma, temel ses önayarına bağlıdır. Uzun bir senaryoya aksan etiketi uygulamadan önce 50 karakterlik bir test satırı çalıştırın.

Sözcüklerin ortasındaki etiketler: etiketlerin tam sözcükler veya noktalama işaretleri arasında yer alması gerekir, sözcüğün içinde değil. Incre[excited]dible doğru şekilde ayrıştırılmaz — bunun yerine [excited] Incredible yazın.

En çok fayda sağlayan kullanım alanları

Çok karakterli sesli kitaplar: ses önayarlarının ve sunum etiketlerinin birleşimi, anlatıcıyı karakterlerden ayırt etmenizi ve her karaktere tutarlı bir duygusal kimlik vermenizi sağlar. Eksiksiz bir ses prodüksiyonunun nasıl oluşturulacağına dair karşılaştırılabilir bir iş akışı için MiniMax Speech seslendirme rehberine bakın.

Oyun diyalogları ve etkileşimli kurgu: güçlü etiketlerle verilen kısa, canlı replikler — [afraid] Stay back!, [laughs] You call that a plan? — özel ses aktörleri olmadan inandırıcı NPC'ler oluşturur.

Duygusal derinliğe sahip YouTube anlatımı: dramatik açıklamalar, esprili kısımlar ve sessiz yansıma arasında geçiş yapan bir belgesel veya açıklayıcı video, sunum değişikliklerinden yararlanır. Geçişleri etiketleyin, tempo kendiliğinden oluşur.

Diyalog odaklı içerik ve fragmanlar: tek bir üretimden alınan iki ya da üç karakter okuması, her biri ses önayarı ve etiketlerle ayırt edilerek bir diyalog sahnesini tek bir iş akışı adımına sığdırır.

OmniArt'ta hemen başlayın

v3'ün neler yapabileceğini hissetmenin en hızlı yolu, iyi bildiğiniz bir senaryoyu — bir monolog, kısa bir hikayenin açılışı ya da birkaç oyun diyaloğu satırını — iki kez etiketlemektir: bir kez hafif etiketleme ile, bir kez de agresif sunum kaymaları ile. Her ikisini de oluşturun ve karşılaştırın. Hafifçe yönetilmiş ve tam anlamıyla yönetilmiş bir senaryo arasındaki fark genellikle ilk cümlede kendini belli eder.

OmniArt'ta Eleven v3'ü açın ve ilk etiketli senaryonuzu yapıştırın. Yukarıdaki duygusal anlatım örneğiyle başlayın, ses önayarını değiştirin ve ne değiştiğini gözlemleyin. Etiket sözcüğü doğal gelmeye başladığında model, gerçek bir kayıt seansı kadar duyarlı hâle gelir — stüdyo olmadan.

OmniArt'ta müzik ve ses efektleri dahil tüm ses modellerine kapsamlı bir bakış için ses çalışma alanı rehberine göz atın.

Oluşturmaya hazır mısınız?

AI ile harika içerikler üretmeye başlayın

Ücretsiz başla