tutorialチュートリアルと使い方ガイド17分で読めます

Eleven v3 オーディオタグ完全ガイド：AI音声演技を自在にコントロール

OmniArtでElevenLabs v3のオーディオタグ（感情・発話スタイル・アクセント・キャラクタータグ）を使って、表現豊かなAI音声パフォーマンスを演出する方法を徹底解説します。

OmniArt チーム2026年6月13日

ほとんどのテキスト読み上げツールは、スクリプトを毎回同じように読み上げます。単調で均一、どこか機械的な仕上がりになりがちです。Eleven v3はそれとは一線を画します。スクリプトの感情的なニュアンスを理解し、オーディオタグを使えば、まるで声優ディレクターが収録前に演者へ指示を出すように、明確な演出方向を与えることができます。

オーディオタグとは、スクリプトの中に直接埋め込む角括弧内の短い単語やフレーズです。次の台詞をどのように届けるかをモデルに伝えます。ひそひそ声で語らせたり、叫ばせたり、英国アクセントを乗せたり、文の途中でため息を挟ませたりと、表現は自在です。このガイドでは、OmniArtで利用できるタグの全語彙、複数キャラクターのスクリプト作成法、そしてEleven v3が最適な場面の見極め方を詳しく説明します。

オーディオタグとは？

オーディオタグとは、角括弧で囲んだ演出指示です。[whispers]（ひそひそ声）、[excited]（興奮）、[British accent]（英国アクセント）のように記述し、発話スタイルを変えたいスクリプトの箇所に挿入します。Eleven v3はこれを読み上げるテキストではなく指示として解釈し、音調・ペース・感情表現をそれに合わせて調整します。

従来のTTSとの最大の違いは、v3が文脈を解釈するという点です。全体に一律のフィルターをかけるのではなく、タグと周囲の文章を総合的に判断します。そのため、「そうだと思います」の前に置いた[sighs]と、「わかった、行こう」の前に置いた[sighs]では、まったく異なる結果が生まれます。この文脈感知能力があるからこそ、タグ付きスクリプトは機械的に処理されたものではなく、きちんと演出されたものに聞こえるのです。

ヒント

タグは、効果を与えたいフレーズの直前に配置してください。段落の先頭に置いたタグは、次のタグが現れるか、自然な音調のリセットが起きるまで発話スタイルをコントロールし続けます。

オーディオタグの語彙一覧

下の表では、主なタグカテゴリをサンプルとともに整理しています。これらはOmniArtでEleven v3が安定して反応するタグです。

感情タグ

タグ	効果
`[excited]`	エネルギーが高まり、テンポが速く、音色が明るくなる
`[sad]`	ゆっくりとした低い抑制された発話
`[angry]`	短く力強く、音量が上がる
`[nervous]`	若干不規則なペース、全体的に小さな声
`[happy]`	温かく弾んだ、オープンな共鳴
`[tired]`	ゆっくりで平坦、力の抜けた発話
`[afraid]`	緊張感があり抑制された、息が浅い
`[disgusted]`	感情が薄く、わずかに軽蔑的な雰囲気
`[surprised]`	音調が高く始まり、フレーズが短い

発話スタイルタグ

タグ	効果
`[whispers]`	息漏れのある低音量で親密な雰囲気
`[shouting]`	高音量で投射感があり、広い共鳴
`[pause]`	この位置に自然な間を挿入
`[slowly]`	音調を変えずにテンポをゆっくりにする
`[fast]`	テンポを速め、エネルギーを高める
`[sighs]`	フレーズの冒頭に聞こえるため息を自然に織り交ぜる
`[laughs]`	台詞の前後または途中に短い自然な笑い声を加える
`[crying]`	途切れがちで感情的な、湿り気のある発話

キャラクター・ペルソナタグ

タグ	効果
`[pirate voice]`	演劇的で低くうなるような誇張したリズム
`[robot voice]`	短く単調で合成音のような質感
`[narrator]`	権威があり落ち着いたドキュメンタリー調
`[announcer]`	投射感があり格式高い放送的な品質
`[childlike]`	高めの音調、短いフレーズ、遊び心のある雰囲気

アクセントタグ

タグ	効果
`[British accent]`	英国標準発音（Received Pronunciation）のスタイル
`[Southern US accent]`	温かみがあり母音が伸びるアクセント
`[Australian accent]`	文末が上がるイントネーション
`[Irish accent]`	旋律的で独特の円唇母音を持つアクセント
`[New York accent]`	子音が短く、鼻腔共鳴のある中音域

メモ

アクセントタグはベースの音声プリセットに重ねて適用されます。プリセットによって効果の出方が異なり、アクセントタグへの反応が強い音声とそうでない音声があります。長いスクリプトに適用する前に、短いテスト文で確認することをお勧めします。

タグ早見表

目的	タグ例
感情 — ポジティブ	`[excited]`、`[happy]`、`[surprised]`
感情 — ネガティブ	`[sad]`、`[angry]`、`[tired]`、`[afraid]`、`[nervous]`
音量・投射	`[whispers]`、`[shouting]`
テンポ	`[slowly]`、`[fast]`
自然音	`[sighs]`、`[laughs]`、`[crying]`、`[pause]`
キャラクタースタイル	`[pirate voice]`、`[robot voice]`、`[narrator]`、`[announcer]`、`[childlike]`
アクセント	`[British accent]`、`[Southern US accent]`、`[Australian accent]`、`[Irish accent]`、`[New York accent]`

タグ付きスクリプトの書き方：2つのサンプル

サンプル1 — 感情的なナレーション

オーディオブックのチャプター冒頭として使えるサンプルです。場面の変化に合わせてタグで雰囲気を切り替えています。

[narrator] The city had been quiet for three days.

[slowly] Not the quiet of peace — [pause] the quiet of waiting.

[tired] Maya poured her fourth cup of coffee and stared at the map pinned to the wall.

[whispers] They had to be out there somewhere.

[sighs] She just needed one more lead.

[narrator]タグが冒頭から落ち着いたトーンを確立します。[slowly]に[pause]を組み合わせることで劇的な間が生まれます。[tired]が発話を重く沈めた後、[whispers]が音量を低く抑えて親密な雰囲気を作り出します。[sighs]は実際のため息音を加え、最後の一行に感情的な重みを与えます。

サンプル2 — 二人のキャラクターによる対話

Eleven v3は、単一のプロンプトから複数話者の掛け合いを処理できます。キャラクターのラベルと発話スタイルタグで、それぞれの声を区別しましょう。

CAPTAIN (VOICE A): [excited] We found it. [pause] The actual coordinates — right where the old chart said they'd be.

FIRST MATE (VOICE B): [nervous] Sir, that chart is four hundred years old. Half of it is sea monsters drawn by someone who'd never left port.

CAPTAIN (VOICE A): [laughs] Exactly! [fast] Which means no one else thought it was worth following. Get the crew up.

FIRST MATE (VOICE B): [sighs] [slowly] Aye, captain.

ヒント

複数キャラクターのスクリプトでは、ベース音域が明確に異なる二つの音声プリセットを選んでください。一方を低く、もう一方を明るい音色にすると、音声出力に視覚的な話者表示がなくても、キャラクターの区別がしっかりと伝わります。

OmniArtでオーディオタグを使う手順

オーディオモードへ移動し、「スピーチ」タブを選択します。
モデルメニューからEleven v3を選択します。 STARTERプラン以上でご利用いただけます。
音声プリセットを選択します。 OmniArtは音声モデル全体で353種類の厳選された音声を提供しています。性別とスタイルで絞り込みましょう。低くて権威ある音声はナレーションに最適で、明るい中音域の音声は強い感情タグへの反応が良好です。
タグ付きスクリプトをプロンプト欄に貼り付けます。 Eleven v3は1回の生成あたり最大5,000文字をサポートします。
スクリプトに合わせて言語を設定します。
生成して試聴します。 タグの効果が強すぎる・弱すぎる場合は、タグの位置を調整するか、発話をリセットするタグを追加するか、別の音声プリセットをお試しください。

料金は開始した50文字ブロックごとに1クレジットです。500文字のスクリプトは10クレジット、5,000文字のスクリプトは100クレジットになります。50文字に満たないブロックは切り上げ計算されます。

警告

OmniArtのEleven v3では、音声クローン、速度スライダー、ピッチコントロールは提供していません。すべての発話表現の変化はスクリプトのテキストとオーディオタグによって生まれます。

Eleven v3と他の音声モデルの使い分け

OmniArtでは3種類のElevenLabsモデルを利用できます。それぞれの最適な使用シーンをご確認ください。

シナリオ	最適モデル	理由
感情の変化が豊富な演技 — 笑い、泣き、叫ぶキャラクター	Eleven v3	オーディオタグと文脈認識による最高の表現力
安定した多言語ナレーション（50言語以上）	Eleven Multilingual v2	言語を問わず均一で聴きやすい発話、1回最大10,000文字
長いスクリプトを素早く処理したい場合	Eleven Turbo v2.5	低レイテンシー、1回最大40,000文字、100文字あたり1クレジット
予算重視またはFREEプランでの生成	MiniMax Speech 2.8 HD / Turbo	無料プランで利用可能、HDは完成品質、Turboは下書き用

実用的な判断基準として、スクリプトがパフォーマンスを求めており、発話の届け方自体が意味を持つ場合はv3を使いましょう。目標が多言語で明確に伝わるナレーションであればMultilingual v2を、比較的感情の起伏が少ない長いスクリプトを素早く処理したい場合はTurbo v2.5を選んでください。

各モデルの詳細仕様は専用ページをご覧ください：Eleven v3、Eleven Multilingual v2、Eleven Turbo v2.5。

避けるべきタグの使い方

タグの使いすぎ： すべての文にタグを付けると変化の効果が均一化されてしまいます。感情タグは、タグなしの自然な発話区間の後に現れるときに最も強い印象を与えます。感情の頂点や転換点に絞って使い、常時かけ続けるレイヤーにしないようにしましょう。

矛盾するタグ： [shouting]の直後に文を挟まず[whispers]を置くと、モデルが混乱することがあります。強いコントラストの間には中立的な発話文を一文入れておきましょう。

テストなしでのアクセントタグ使用： アクセントの表現はベース音声プリセットによって異なります。長いスクリプト全体にアクセントタグを適用する前に、50文字程度のテスト文で確認してください。

単語の途中へのタグ挿入： タグは完全な単語や句読点の間に置く必要があります。単語の内部には置けません。Incre[excited]dibleは正しくパースされません。[excited] Incredibleと書いてください。

効果が大きい活用シーン

複数キャラクターのオーディオブック： 音声プリセットと発話スタイルタグの組み合わせにより、ナレーターとキャラクターを区別し、各キャラクターに一貫した感情的な個性を与えることができます。完全な音声制作のワークフローについては、MiniMax Speechボイスオーバーガイドを参照してください。

ゲームの台詞とインタラクティブフィクション： 強いタグ付きの短くパンチのある台詞 — [afraid] Stay back!（近づくな！）、[laughs] You call that a plan?（それが作戦とは言えないぞ？）— で、プロの声優なしでも説得力のあるNPCが作れます。

感情の起伏のあるYouTubeナレーション： 劇的な展開、ユーモラスな挿入、静かな考察を行き来するドキュメンタリーや解説動画は、発話スタイルの切り替えから大きな恩恵を受けます。転換点にタグを付けると、ペーシングが自然と完成します。

対話中心のメディアや予告編： 単一の生成で二〜三人のキャラクターの掛け合いを処理し、音声プリセットとタグで各キャラクターを区別することで、対話シーン全体を一つのワークフローにまとめられます。

OmniArtで始めてみましょう

v3の可能性を実感するための最速の方法は、よく知っているスクリプト——モノローグ、短編小説の冒頭、ゲームの台詞数行——を二通りタグ付けすることです。一度は軽いタグ付けで、もう一度は大胆に発話スタイルを切り替えて。両方を生成して聴き比べると、軽く演出したものと完全に演出したものの違いは、たいてい最初の一文で明らかになります。

OmniArtのEleven v3を開いて、最初のタグ付きスクリプトを貼り付けてみてください。上記の感情ナレーションのサンプルからスタートして、音声プリセットを変えながら何が変わるかを確かめましょう。タグの語彙が身に付いてくると、このモデルはスタジオなしでも実際の録音セッションのように柔軟に演出に応えてくれます。

OmniArtで利用できる音楽や効果音を含むすべてのオーディオモデルの概要は、オーディオワークスペース完全ガイドをご覧ください。

制作を始めますか？

AIで魅力的なコンテンツを生成しましょう

無料で始める