tutorialHướng dẫn và cách làm12 phút đọc

Hướng dẫn audio tags Eleven v3: Kiểm soát giọng AI đầy cảm xúc

Tìm hiểu cách dùng audio tags của ElevenLabs v3 trên OmniArt — các thẻ cảm xúc, cách phát âm, giọng địa phương và nhân vật trong ngoặc vuông — để điều hướng màn trình diễn giọng AI biểu cảm.

Đội ngũ OmniArt
Hướng dẫn audio tags Eleven v3: Kiểm soát giọng AI đầy cảm xúc

Hầu hết các công cụ chuyển văn bản thành giọng nói đọc kịch bản theo cùng một cách lặp đi lặp lại: đều đều, đơn điệu và hơi giống robot. Eleven v3 khác hẳn. Mô hình này hiểu được kết cấu cảm xúc trong kịch bản, và với audio tags, bạn có thể đưa ra chỉ đạo rõ ràng — giống như một đạo diễn âm thanh ra lệnh cho diễn viên trước khi ghi âm.

Audio tags là những từ hoặc cụm từ ngắn trong ngoặc vuông được nhúng trực tiếp vào kịch bản. Chúng cho mô hình biết cách truyền tải dòng tiếp theo: thì thầm, la hét, thêm giọng Anh, hoặc ngắt câu bằng một tiếng thở dài. Hướng dẫn này bao gồm toàn bộ từ vựng thẻ có trên OmniArt, cách viết kịch bản nhiều nhân vật dùng chúng, và cách xác định khi nào Eleven v3 là mô hình phù hợp nhất.

Audio tags là gì?

Audio tags là các chỉ dẫn diễn xuất nội tuyến đặt trong ngoặc vuông — [whispers] (thì thầm), [excited] (phấn khích), [British accent] (giọng Anh) — tại vị trí trong kịch bản mà bạn muốn thay đổi cách truyền tải. Eleven v3 phân tích chúng như mệnh lệnh chứ không phải từ cần đọc, rồi điều chỉnh giọng điệu, nhịp độ và cảm xúc cho phù hợp.

Điểm khác biệt chính so với TTS cũ là v3 giải thích ngữ cảnh. Mô hình không chỉ áp dụng một bộ lọc chung: nó cân nhắc thẻ với câu xung quanh, nên [sighs] trước "Tôi cho là bạn đúng" cho kết quả khác [sighs] trước "Thôi được, đi nào." Sự nhạy cảm ngữ cảnh này là điều làm cho các kịch bản có thẻ nghe có vẻ được đạo diễn, không phải xử lý máy móc.

Mẹo

Đặt thẻ ngay trước cụm từ mà nó cần ảnh hưởng. Một thẻ ở đầu đoạn văn sẽ điều khiển cách phát âm cho đến khi gặp thẻ tiếp theo hoặc có sự đặt lại giọng điệu tự nhiên.

Từ vựng audio tags

Bảng dưới đây tổ chức mọi danh mục thẻ chính kèm ví dụ. Đây là các tín hiệu mà Eleven v3 phản hồi đáng tin cậy trên OmniArt.

Thẻ cảm xúc

ThẻHiệu ứng
[excited]Năng lượng cao hơn, nhịp nhanh hơn, giọng sáng hơn
[sad]Chậm hơn, trầm hơn, cách phát âm buồn bã hơn
[angry]Ngắn gọn, mạnh mẽ, âm lượng tăng
[nervous]Nhịp hơi không đều, tổng thể nhỏ hơn
[happy]Ấm áp, vui tươi, cộng hưởng mở
[tired]Chậm hơn, phẳng hơn, ít nỗ lực hơn
[afraid]Căng thẳng, kiềm chế, hơi thở giảm
[disgusted]Cảm xúc phẳng với chút khinh thường
[surprised]Cao độ khởi đầu cao hơn, câu ngắn hơn

Thẻ cách phát âm

ThẻHiệu ứng
[whispers]Hơi thở nhẹ, âm lượng thấp, thân mật
[shouting]Âm lượng cao, phóng chiếu, cộng hưởng rộng
[pause]Chèn nhịp hoặc khoảng ngừng tự nhiên tại đây
[slowly]Tempo kéo dài mà không thay đổi cao độ
[fast]Tempo nén lại, năng lượng cao hơn
[sighs]Tiếng thở dài nghe được xen vào đầu cụm từ
[laughs]Thêm tiếng cười tự nhiên ngắn trước hoặc trong khi đọc
[crying]Giọng khóc, ngắt quãng, chất ướt

Thẻ nhân vật và persona

ThẻHiệu ứng
[pirate voice]Kịch tính, khàn khàn, nhịp điệu phóng đại
[robot voice]Ngắn gọn, đơn điệu, chất lượng tổng hợp
[narrator]Uy quyền, đo lường, phong cách tài liệu
[announcer]Phóng chiếu, trang trọng, chất lượng phát thanh
[childlike]Cao độ cao hơn, câu ngắn hơn, vui tươi

Thẻ giọng địa phương

ThẻHiệu ứng
[British accent]Phong cách phát âm chuẩn Anh (Received Pronunciation)
[Southern US accent]Ấm áp, nguyên âm kéo dài
[Australian accent]Ngữ điệu lên ở cuối câu
[Irish accent]Giai điệu, làm tròn nguyên âm đặc trưng
[New York accent]Phụ âm ngắn, âm mũi vùng giữa

Ghi chú

Thẻ giọng địa phương được xếp chồng lên voice preset cơ bản. Kết quả thay đổi theo preset — một số giọng phản hồi mạnh hơn với thẻ giọng địa phương. Hãy tạo một dòng thử nghiệm ngắn trước khi áp dụng cho toàn bộ kịch bản.

Bảng tham khảo nhanh thẻ

Mục đíchThẻ ví dụ
Cảm xúc — tích cực[excited], [happy], [surprised]
Cảm xúc — tiêu cực[sad], [angry], [tired], [afraid], [nervous]
Âm lượng / phóng chiếu[whispers], [shouting]
Tempo[slowly], [fast]
Âm thanh tự nhiên[sighs], [laughs], [crying], [pause]
Phong cách nhân vật[pirate voice], [robot voice], [narrator], [announcer], [childlike]
Giọng địa phương[British accent], [Southern US accent], [Australian accent], [Irish accent], [New York accent]

Viết kịch bản có thẻ: hai ví dụ

Ví dụ 1 — Kể chuyện cảm xúc

Đây là phần mở đầu ngắn cho một chương sách âm thanh. Các thẻ thay đổi tâm trạng khi cảnh thay đổi.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

Thẻ [narrator] thiết lập giọng điệu đo lường ngay từ đầu. [slowly] kết hợp [pause] tạo ra không gian kịch tính. [tired] làm nặng nề cách phát âm trước khi [whispers] kéo giọng xuống thấp và thân mật. [sighs] thêm hơi thở thực tế làm cho dòng cuối cảm thấy xứng đáng.

Ví dụ 2 — Đối thoại hai nhân vật

Eleven v3 có thể xử lý đọc nhiều người nói từ một prompt duy nhất. Dùng nhãn nhân vật và thẻ phát âm để phân biệt từng giọng.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

Mẹo

Với kịch bản nhiều nhân vật, chọn hai voice preset có giọng nền khác biệt rõ ràng — một giọng trầm hơn, một giọng sáng hơn — để sự khác biệt nhân vật thể hiện rõ ngay cả khi không có nhãn người nói trong file âm thanh.

Cách dùng audio tags trên OmniArt

  1. Vào chế độ Âm thanh và chọn tab Speech.
  2. Chọn Eleven v3 từ menu mô hình. Có sẵn từ gói STARTER trở lên.
  3. Chọn voice preset. OmniArt cung cấp 353 giọng được tuyển chọn qua các mô hình giọng nói. Duyệt theo giới tính và phong cách — các preset sâu, uy quyền hoạt động tốt cho kể chuyện; các preset sáng, tầm trung phản hồi tốt với thẻ cảm xúc mạnh.
  4. Dán kịch bản có thẻ vào ô prompt. Eleven v3 chấp nhận tối đa 5.000 ký tự mỗi lần tạo.
  5. Đặt ngôn ngữ cho khớp với kịch bản.
  6. Tạo và nghe thử. Nếu thẻ tác động quá nhiều hay quá ít, điều chỉnh vị trí thẻ, thêm thẻ đặt lại phân phối, hoặc thử voice preset khác.

Cách tính phí: 1 tín dụng cho mỗi block 50 ký tự được bắt đầu. Kịch bản 500 ký tự tốn 10 tín dụng; kịch bản 5.000 ký tự tốn 100 tín dụng. Các block chưa đủ 50 ký tự được làm tròn lên.

Cảnh báo

OmniArt không cung cấp sao chép giọng nói, thanh trượt tốc độ, hoặc điều khiển cao độ cho Eleven v3. Mọi thay đổi cách phát âm đều đến từ văn bản kịch bản và audio tags.

Khi nào dùng Eleven v3 so với các mô hình giọng khác

OmniArt có ba mô hình ElevenLabs. Dưới đây là thời điểm thích hợp dùng từng mô hình.

Tình huốngMô hình tốt nhấtLý do
Màn trình diễn cảm xúc đa dạng — nhân vật cười, khóc, la hétEleven v3Audio tags và nhận thức ngữ cảnh cho phạm vi biểu cảm tốt nhất
Kể chuyện đa ngôn ngữ ổn định (50+ ngôn ngữ)Eleven Multilingual v2Phát âm đều đặn qua các ngôn ngữ; 10.000 ký tự mỗi lần tạo
Kịch bản dài cần xử lý nhanhEleven Turbo v2.5Độ trễ thấp; 40.000 ký tự mỗi lần tạo với 1 tín dụng/100 ký tự
Tiết kiệm ngân sách hoặc tạo miễn phíMiniMax Speech 2.8 HD / TurboCó sẵn ở gói FREE; HD cho chất lượng hoàn thiện, Turbo cho bản nháp

Mô hình tư duy hữu ích: dùng v3 khi kịch bản cần một màn trình diễn và chính cách phát âm mang ý nghĩa. Dùng Multilingual v2 khi mục tiêu là kể chuyện rõ ràng dễ theo dõi qua nhiều ngôn ngữ. Dùng Turbo v2.5 khi có kịch bản dài, tương đối trung tính và cần kết quả nhanh.

Xem thông số đầy đủ tại các trang mô hình chuyên dụng: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

Những lỗi gắn thẻ thường gặp cần tránh

Gắn thẻ quá nhiều: thêm thẻ vào mọi câu sẽ làm phẳng sự biến đổi. Thẻ cảm xúc tạo ấn tượng mạnh hơn khi xuất hiện sau một đoạn không có thẻ, phát âm tự nhiên. Dùng chúng cho các đỉnh điểm và chuyển đổi, không phải như một lớp liên tục.

Thẻ mâu thuẫn: [shouting] ngay sau [whispers] mà không có câu nào ở giữa có thể làm mô hình bối rối. Để lại một câu phát âm trung tính giữa những đối lập mạnh.

Thẻ giọng địa phương mà không thử: cách diễn giải giọng phụ thuộc vào voice preset cơ bản. Chạy dòng thử nghiệm 50 ký tự trước khi áp dụng thẻ giọng địa phương cho kịch bản dài.

Thẻ giữa chừng từ: thẻ cần đứng giữa các từ hoàn chỉnh hoặc dấu câu, không phải bên trong một từ. Incre[excited]dible sẽ không phân tích đúng — hãy viết [excited] Incredible thay vào đó.

Trường hợp sử dụng hưởng lợi nhiều nhất

Sách âm thanh nhiều nhân vật: sự kết hợp voice preset và thẻ phát âm giúp phân biệt người kể chuyện với nhân vật và tạo cho mỗi nhân vật một đặc điểm cảm xúc nhất quán. Xem cách xây dựng một sản xuất âm thanh hoàn chỉnh tại hướng dẫn voiceover MiniMax Speech để có quy trình tương tự.

Lời thoại game và tiểu thuyết tương tác: những dòng ngắn, mạnh mẽ với thẻ đậm — [afraid] Stay back! (Đứng lại!), [laughs] You call that a plan? (Anh gọi đó là kế hoạch à?) — tạo ra NPC đáng tin mà không cần diễn viên lồng tiếng chuyên nghiệp.

Thuyết minh YouTube có biên độ cảm xúc: phim tài liệu hay video giải thích chuyển đổi giữa tiết lộ kịch tính, chêm câu hài hước, và suy ngẫm yên lặng hưởng lợi từ sự thay đổi cách phát âm. Gắn thẻ các chuyển tiếp và nhịp độ tự viết ra.

Phương tiện truyền thông và trailer theo đối thoại: hai hoặc ba nhân vật đọc đối thoại từ một lần tạo, mỗi nhân vật được phân biệt bằng voice preset và thẻ, nén một cảnh đối thoại thành một bước quy trình.

Bắt đầu trên OmniArt

Cách nhanh nhất để phát triển cảm giác v3 có thể làm gì là lấy một kịch bản bạn quen thuộc — một đoạn độc thoại, phần mở đầu truyện ngắn, vài dòng lời thoại game — và gắn thẻ hai lần: một lần với thẻ nhẹ, một lần với những thay đổi phân phối quyết liệt. Tạo cả hai và so sánh. Sự khác biệt giữa kịch bản được đạo diễn nhẹ và được đạo diễn đầy đủ thường rõ ràng ngay từ câu đầu tiên.

Mở Eleven v3 trên OmniArt và dán kịch bản có thẻ đầu tiên của bạn. Bắt đầu với ví dụ kể chuyện cảm xúc ở trên, thay đổi voice preset, và xem điều gì thay đổi. Khi từ vựng thẻ trở nên tự nhiên, mô hình phản hồi nhanh như một buổi ghi âm thực sự — mà không cần studio.

Để có cái nhìn toàn diện hơn về mọi mô hình âm thanh có trên OmniArt, bao gồm nhạc và hiệu ứng âm thanh, xem hướng dẫn không gian làm việc âm thanh đầy đủ.

Sẵn sàng sáng tạo?

Bắt đầu tạo nội dung tuyệt vời bằng AI

Bắt đầu miễn phí