tutorial튜토리얼 및 사용 가이드17분 읽기

Eleven v3 오디오 태그 완전 가이드: AI 음성 연기 제어하기

OmniArt에서 ElevenLabs v3 오디오 태그(감정·전달 방식·억양·페르소나 대괄호 지시어)를 활용해 표현력 넘치는 AI 음성 연기를 만드는 방법을 알아보세요.

OmniArt 팀2026년 6월 13일

대부분의 텍스트 음성 변환 도구는 스크립트를 항상 같은 방식으로 읽습니다. 단조롭고 규칙적이며 약간 로봇 같은 느낌이죠. Eleven v3는 다릅니다. 이 모델은 스크립트의 감정적 질감을 이해하고, 오디오 태그를 사용하면 성우 디렉터가 녹음 전에 연기자에게 지시를 내리듯 명확한 방향을 제시할 수 있습니다.

오디오 태그는 스크립트에 직접 삽입되는 대괄호 안의 짧은 단어나 구문입니다. 다음 대사를 어떻게 전달할지 모델에게 알려줍니다. 속삭이거나, 소리를 지르거나, 영국식 억양을 입히거나, 문장 중간에 한숨을 넣는 방식이죠. 이 가이드에서는 OmniArt에서 사용 가능한 전체 태그 목록, 태그를 활용한 다중 캐릭터 스크립트 작성법, 그리고 Eleven v3가 적합한 상황을 판단하는 방법을 다룹니다.

오디오 태그란?

오디오 태그는 대괄호 안에 넣는 인라인 연기 지시어입니다. [whispers](속삭임), [excited](흥분), [British accent](영국식 억양) 같은 형태로, 전달 방식을 바꾸고 싶은 스크립트의 해당 위치에 삽입합니다. Eleven v3는 이를 읽을 텍스트가 아니라 지시어로 해석해 톤, 속도, 감정을 조절합니다.

구형 TTS와의 핵심 차이는 v3가 문맥을 해석한다는 점입니다. 일괄적인 필터를 적용하는 것이 아니라, 태그와 주변 문장을 함께 고려합니다. 그래서 "맞는 것 같네요" 앞에 붙은 [sighs]와 "좋아, 갑시다" 앞에 붙은 [sighs]는 서로 다른 결과를 만들어냅니다. 이 문맥 감지 능력 덕분에 태그가 적용된 스크립트는 기계적으로 처리된 것이 아니라 실제로 연출된 느낌을 줍니다.

팁

태그는 영향을 미칠 구문 바로 앞에 배치하세요. 문단 시작 부분의 태그는 다음 태그가 나오거나 자연스러운 톤 리셋이 있을 때까지 전달 방식을 제어합니다.

오디오 태그 목록

아래 표는 주요 태그 카테고리와 예시를 정리한 것입니다. 이 태그들은 OmniArt에서 Eleven v3가 안정적으로 반응하는 지시어입니다.

감정 태그

태그	효과
`[excited]`	에너지 상승, 빠른 속도, 밝은 톤
`[sad]`	느리고 낮으며 차분한 전달
`[angry]`	짧고 힘차며 음량이 높아짐
`[nervous]`	약간 불규칙한 속도, 전체적으로 조용함
`[happy]`	따뜻하고 활기차며 열린 공명
`[tired]`	느리고 평탄하며 기력이 없는 느낌
`[afraid]`	긴장되고 절제된, 호흡이 줄어드는 느낌
`[disgusted]`	감정이 없고 약간 경멸적인 느낌
`[surprised]`	높은 음조로 시작, 짧은 구문

전달 방식 태그

태그	효과
`[whispers]`	숨소리가 섞인 낮은 볼륨, 친밀한 느낌
`[shouting]`	높은 볼륨, 투사감, 넓은 공명
`[pause]`	이 위치에 자연스러운 박자나 휴지 삽입
`[slowly]`	음조 변화 없이 템포만 늘어짐
`[fast]`	압축된 템포, 에너지 상승
`[sighs]`	구문 시작 부분에 들릴 수 있는 숨 내쉬는 소리 삽입
`[laughs]`	대사 전이나 도중에 짧은 자연스러운 웃음 추가
`[crying]`	울먹이는 듯한 끊기고 젖은 질감의 전달

캐릭터 및 페르소나 태그

태그	효과
`[pirate voice]`	연극적이고 으르렁거리며 과장된 리듬
`[robot voice]`	짧고 단조롭고 합성된 질감
`[narrator]`	권위 있고 차분한 다큐멘터리 스타일
`[announcer]`	투사감 있고 격식 있는 방송 품질
`[childlike]`	높은 음조, 짧은 구문, 장난스러운 느낌

억양 태그

태그	효과
`[British accent]`	영국 표준 발음(Received Pronunciation) 스타일
`[Southern US accent]`	따뜻하고 늘어지는 모음
`[Australian accent]`	문장 끝이 올라가는 억양
`[Irish accent]`	선율적이고 독특한 원순 모음
`[New York accent]`	짧은 자음, 코 쪽에 울리는 중간 음역

참고

억양 태그는 기본 음성 프리셋 위에 겹쳐 적용됩니다. 프리셋에 따라 결과가 달라지며, 일부 음성은 억양 태그에 더 강하게 반응합니다. 긴 스크립트에 적용하기 전에 짧은 테스트 문장으로 먼저 확인해보세요.

태그 빠른 참조표

목적	예시 태그
감정 - 긍정	`[excited]`, `[happy]`, `[surprised]`
감정 - 부정	`[sad]`, `[angry]`, `[tired]`, `[afraid]`, `[nervous]`
볼륨 / 투사	`[whispers]`, `[shouting]`
템포	`[slowly]`, `[fast]`
자연음	`[sighs]`, `[laughs]`, `[crying]`, `[pause]`
캐릭터 스타일	`[pirate voice]`, `[robot voice]`, `[narrator]`, `[announcer]`, `[childlike]`
억양	`[British accent]`, `[Southern US accent]`, `[Australian accent]`, `[Irish accent]`, `[New York accent]`

태그 스크립트 작성 예시

예시 1 — 감정 나레이션

오디오북 챕터 오프닝 예시입니다. 장면 변화에 따라 태그로 분위기를 전환합니다.

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

[narrator] 태그가 처음부터 차분하고 절제된 분위기를 만들어줍니다. [slowly]와 [pause]의 조합이 극적인 여백을 만들어냅니다. [tired]가 전달 방식을 무겁게 눌러준 뒤, [whispers]가 음량을 낮추며 친밀감을 형성합니다. [sighs]는 실제 숨 소리를 더해 마지막 대사에 감정적 무게를 실어줍니다.

예시 2 — 두 캐릭터 대화

Eleven v3는 단일 생성에서 다중 화자 대화를 처리할 수 있습니다. 캐릭터 레이블과 전달 방식 태그로 각각의 음성을 구분하세요.

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

팁

다중 캐릭터 스크립트에서는 기본 음역이 확실히 다른 두 가지 음성 프리셋을 선택하세요. 하나는 낮고 하나는 밝은 음성을 고르면, 오디오 출력에 시각적인 화자 표시가 없어도 캐릭터 구분이 명확하게 됩니다.

OmniArt에서 오디오 태그 사용하기

오디오 모드로 이동하여 Speech 탭을 선택합니다.
모델 메뉴에서 Eleven v3를 선택합니다. STARTER 등급 이상에서 사용할 수 있습니다.
음성 프리셋을 선택합니다. OmniArt는 음성 모델 전반에 걸쳐 353개의 엄선된 음성을 제공합니다. 성별과 스타일로 필터링하세요. 낮고 권위 있는 음성은 나레이션에 잘 어울리고, 밝은 중간 음역 음성은 강한 감정 태그에 잘 반응합니다.
태그가 포함된 스크립트를 프롬프트 입력란에 붙여 넣습니다. Eleven v3는 생성당 최대 5,000자를 지원합니다.
스크립트에 맞는 언어를 설정합니다.
생성하고 시청합니다. 태그 효과가 너무 강하거나 약하다면 태그 위치를 조정하거나, 전달 방식을 초기화할 태그를 추가하거나, 다른 음성 프리셋을 시도해보세요.

요금제: 시작된 50자 블록당 1크레딧이 차감됩니다. 500자 스크립트는 10크레딧, 5,000자 스크립트는 100크레딧입니다. 50자 미만의 블록은 올림 처리됩니다.

경고

OmniArt는 Eleven v3에 대해 음성 복제, 속도 슬라이더, 음조 조절 기능을 제공하지 않습니다. 모든 전달 방식 변화는 스크립트 텍스트와 오디오 태그에서 나옵니다.

Eleven v3와 다른 음성 모델 비교

OmniArt에서는 세 가지 ElevenLabs 모델을 사용할 수 있습니다. 각각의 적합한 사용 시나리오를 확인해보세요.

시나리오	최적 모델	이유
감정 변화가 풍부한 연기 — 웃고, 울고, 소리치는 캐릭터	Eleven v3	오디오 태그와 문맥 인식이 가장 넓은 표현 범위를 제공
안정적인 다국어 나레이션 (50개+ 언어)	Eleven Multilingual v2	언어 간 일관되고 균형 잡힌 전달, 생성당 10,000자
빠른 처리가 필요한 긴 스크립트	Eleven Turbo v2.5	낮은 지연 시간, 생성당 40,000자, 100자당 1크레딧
예산이 제한되거나 FREE 등급 생성	MiniMax Speech 2.8 HD / Turbo	무료 등급에서 사용 가능, HD는 완성 품질, Turbo는 초안용

실용적인 판단 기준: 스크립트가 연기를 요구하고 전달 방식 자체가 의미를 담고 있을 때는 v3를 사용하세요. 목표가 여러 언어에서 명확하게 전달되는 나레이션이라면 Multilingual v2를, 상대적으로 중립적인 긴 스크립트를 빠르게 처리해야 할 때는 Turbo v2.5를 선택하세요.

각 모델의 전체 사양은 전용 페이지를 참조하세요: Eleven v3, Eleven Multilingual v2, Eleven Turbo v2.5.

피해야 할 흔한 태그 실수

과도한 태그 사용: 모든 문장에 태그를 붙이면 변화의 효과가 오히려 평탄해집니다. 감정 태그는 아무 태그도 없는 자연스러운 전달 구간 이후에 나타날 때 더 강한 인상을 남깁니다. 감정의 절정과 전환점에만 사용하고, 지속적인 레이어로 깔지 마세요.

모순되는 태그: [shouting] 바로 뒤에 문장 하나도 없이 [whispers]가 오면 모델이 혼란스러워할 수 있습니다. 강한 대비 사이에는 중립적인 전달 문장을 하나 넣어두세요.

테스트 없는 억양 태그: 억양 표현은 기본 음성 프리셋에 따라 달라집니다. 긴 스크립트에 억양 태그를 적용하기 전에 50자 테스트 문장으로 먼저 결과를 확인하세요.

단어 중간에 태그 삽입: 태그는 완전한 단어 또는 문장부호 사이에 위치해야 하며, 단어 내부에 넣으면 안 됩니다. Incre[excited]dible은 올바르게 파싱되지 않습니다. [excited] Incredible로 써야 합니다.

가장 효과적인 활용 사례

다중 캐릭터 오디오북: 음성 프리셋과 전달 방식 태그의 조합으로 나레이터와 캐릭터를 구분하고, 각 캐릭터에 일관된 감정적 색깔을 부여할 수 있습니다. 완전한 오디오 제작 워크플로에 대해서는 MiniMax Speech 보이스오버 가이드를 참고하세요.

게임 대사와 인터랙티브 픽션: 강한 태그가 붙은 짧고 강렬한 대사들 — [afraid] Stay back!(물러서!), [laughs] You call that a plan?(그게 계획이야?) — 로 전문 성우 없이도 설득력 있는 NPC를 만들 수 있습니다.

감정 기복이 있는 유튜브 나레이션: 극적인 공개, 유머러스한 삽입, 조용한 성찰 사이를 오가는 다큐멘터리나 해설 영상은 전달 방식 전환의 혜택을 많이 받습니다. 전환점에 태그를 달면 페이싱이 자연스럽게 완성됩니다.

대화 중심 미디어와 예고편: 단일 생성에서 두세 캐릭터의 대화 대독을 처리하며, 각 캐릭터를 음성 프리셋과 태그로 구분해 대화 장면 전체를 하나의 워크플로 단계로 압축할 수 있습니다.

OmniArt에서 시작하기

v3의 가능성을 직접 체감하는 가장 빠른 방법은 익숙한 스크립트 — 독백, 단편 소설 오프닝, 게임 대화 몇 줄 — 를 두 번 태그해보는 것입니다. 한 번은 가볍게, 한 번은 전달 방식을 과감하게 전환하며. 두 결과물을 비교해보면 가볍게 연출된 것과 완전히 연출된 것의 차이가 첫 문장에서부터 확연히 드러납니다.

OmniArt의 Eleven v3를 열고 첫 번째 태그 스크립트를 붙여 넣어보세요. 위의 감정 나레이션 예시를 사용하고, 음성 프리셋을 바꿔가며 어떤 변화가 생기는지 확인해보세요. 태그 어휘에 익숙해지면, 이 모델은 스튜디오 없이도 실제 녹음 세션처럼 유연하게 반응합니다.

OmniArt에서 사용 가능한 음악, 음향 효과를 포함한 모든 오디오 모델의 개요는 오디오 워크스페이스 완전 가이드를 참고하세요.

제작할 준비가 되셨나요?

AI로 멋진 콘텐츠를 생성하세요

무료로 시작하기