tutorial教程与操作指南16 分钟阅读

Google Lyria 3 Pro：用文字生成电影级纯音乐配乐

学习如何在 OmniArt 上使用 Google Lyria 3 Pro 创作电影配乐、氛围垫底音乐和品牌标识音效，附详细提示词示例及模型对比。

OmniArt 团队2026年6月13日

有人声的 AI 音乐总是最吸引眼球，但视频制作中真正值钱的往往是纯音乐：预告片剪辑下方的张力铺垫、播客底层的氛围垫底音、品牌宣传片开头那四秒的标识音效。Google Lyria 3 Pro 正是为此而生——连贯、精致的纯器乐编曲，听起来像真正的有人工作的配乐，而不是循环样本。

Lyria 3 Pro 隶属于 Google DeepMind 的音乐模型家族。2026 年 2 月 Lyria 3 正式推出（Gemini 应用内的 30 秒曲目）之后，DeepMind 对其进行了深度调优，使其能处理时长约三分钟的曲目，并提供更丰富的创作控制能力。在 OmniArt 上，每首曲目仅需 20 点数——平台上所有音乐模型中最实惠的——同时支持最长 5,000 字符的提示词，是所有音乐模型中提示词预算最充裕的。这一组合让它成为你在不燃烧点数预算的情况下打磨器乐配乐的首选。

Lyria 3 Pro 与其他音乐模型的区别

Lyria 3 Pro 是一款纯器乐模型。它不接受歌词输入，也不会生成人声。这个限制同时也是它的优势：模型的每一个参数都围绕编曲连贯性调优，而非人声表现力。结果是音乐能在完整时长内保持整体性——动态有起有落、段落过渡有意为之、编排始终忠于风格，不会飘移。

这个模型对结构化指令的响应能力很强。你可以用普通语言描述一段引子、一个主题发展段、一个高潮和一个结尾，模型会真正按照这条弧线来走——而那些优先优化人声表现的模型往往会忽视这些。Lyria 3 Pro 在 Google 自家部署中以 SynthID 对输出进行水印标记；在 OmniArt 上，生成结果以标准音频文件的形式直接交付。

曲目时长由模型根据提示词内容和暗示结构自动决定，OmniArt 上没有时长控制选项。用提示词描述你想要的结构弧线，模型会生成与之匹配的时长。

说明

Lyria 3 Pro 仅限纯器乐——不支持歌词输入，不会生成人声。如需带人声的完整歌曲，请在 OmniArt 上改用 MiniMax Music 2.6 或 ElevenLabs Music。

如何撰写 Lyria 3 Pro 提示词

5,000 字符的提示词窗口是一个邀请——邀请你写得具体。Lyria 3 Pro 偏爱层次丰富的详细描述：一句话的提示词能产出一个可用的草稿，但涵盖情绪、乐器、动态和结构的段落级提示词则能产出更接近导演作曲意图的成品。

从五个维度构建你的提示词：

情绪与氛围 点明情绪基调和场景背景。"史诗且凯旋"和"私密且忧郁"会产出截然不同的结果。要具体："由缓慢积蓄到情感爆发的静默恐惧感"给模型提供了一条轨迹，而不只是一种状态。

乐器编制 列出锚定整首作品的声音。模型对具体乐器名称响应良好：独奏大提琴、圆号组、拨弦竖琴、低铜管、空灵合唱垫音、拨奏弦乐、电钢琴、准备钢琴、合成器垫音、独奏长笛。避免用"管弦乐队"这类模糊术语，如果能具体到乐器，就不要含糊。

动态与能量弧线 描述作品在时间维度上的走势。"由稀疏开场逐渐推向完整的管弦乐高潮"或"全程保持极简张力，仅在结尾处有一次单一释放"——这类表述给模型提供了结构方向。

段落结构 Lyria 3 Pro 理解编曲语言。你可以用散文描述各段落："安静的单件乐器引子；以叠加弦乐发展的第一主题；有完整乐团参与的中段高潮；独奏主题回归的尾段。"模型会将其映射为真实的编曲结构。

速度与节奏 用语言而非 BPM 描述节拍感。"缓慢燃烧，约 60 bpm 的感觉"、"紧迫驱进的三连音律感"、"宽松的自由节拍，仿佛是没有固定速度的场景配乐"。

提示

充分利用你的提示词预算。字数在 300–500 字符之间的 Lyria 3 Pro 提示词，表现稳定优于 50 字符的版本。描述这段音乐要配的场景，而不只是音乐本身——模型会利用上下文信息。

三个完整的提示词示例

示例一：电影预告片配乐

这个提示词针对最常见的使用场景——为视频预告片、产品发布会或短片创作张力递进的配乐。

提示词：

Cinematic orchestral score, urgent and escalating, for a science fiction trailer. Opens with a solo cello playing a simple five-note motif against a low sustained drone. After eight bars, low brass and timpani enter underneath, the motif fragmenting into shorter phrases. Strings build through the middle section in staggered entries — first violins, then violas, then cellos — adding density each time. At the climax, full brass, massed strings, and a snare tattoo drive the peak. The final section strips back to the original cello motif, now harmonised by a single French horn, fading to silence. Throughout, a soft synth texture provides a futuristic underlay. Tempo: driving, around 120 bpm feel. No electronics other than the synth pad bed.

为什么有效： 提示词列出了每一件乐器，逐段描绘了结构弧线，指定了主题发展（五音动机的反复出现），并给出了清晰的动态走向：由稀疏到宏大再回到稀疏。Lyria 3 Pro 可以把这段描述当作真正的作曲简报来执行。

示例二：Lo-fi 氛围学习垫底音乐

这个提示词针对不同的使用场景——适合长时间聆听的氛围背景音，可用于学习、播客底层音频或创作者的"常驻"背景轨。

提示词：

Ambient lo-fi study music, calm and slightly nostalgic, for a long listening session. The piece should feel like a room on a rainy afternoon — warm, unhurried, and slightly worn. Instrumentation: close-mic electric piano as the main voice, with a steady soft bass note on each bar, brushed drums sitting very low in the texture, occasional low-volume guitar plucks, and a vinyl crackle texture underneath. No melodic development or dramatic arc — the goal is steady, meditative consistency. Tempo: loose and slow, around 70 bpm feel. Dynamics stay constant throughout with no builds or drops. Soft reverb on the piano. Occasional very brief pauses in the piano line, as if the player is thinking.

为什么有效： 这个提示词明确指示模型不要制造动态发展——这对氛围音乐来说是一个非常有用的反向指令。它将黑胶噪声纹理作为一个声音元素点名，指定了 bpm 范围，并用场景语言（雨天下午的房间感）与技术乐器描述并行表达音乐的"感觉"。

示例三：企业品牌标识音效

这个提示词针对一个简短的品牌识别音效——10 到 20 秒，适合品牌片头、社交媒体头图或产品揭示转场。

提示词：

Short brand identity sting, modern and polished, for a technology company in the productivity software space. Tone: confident, clean, forward-looking — not aggressive or triumphant, but assured. Instrumentation: a light synth pad chord, a single piano note on the downbeat, a short rising string figure, and a soft metallic chime that rings through the end. The total arc should be brief: opening chord — short melodic phrase — single resonant close. Minimal. Everything sits in the mid-to-high register; no heavy bass or low-end weight. The piece ends on a clear, sustained note rather than fading out. It should feel like a logo sound, not a full musical idea.

为什么有效： 提示词定义了这段音乐的情感职能（标识音效，而非完整的音乐构想），明确限制了时长和结构，点明了结尾行为（"以一个清晰的持续音结束"），并用性格描述（"自信、干净、面向未来"）代替风格标签。这正是真正的作曲师能认出来的那种创作简报。

用 Lyria 3 Pro 为视频配乐

Lyria 3 Pro 相比版权音乐库的实际优势在于：你控制创作简报，而不是在海量素材里寻找近似匹配。上面的每一个提示词都可以调整，以适配特定的场景时长、品牌性格或情感需求——不断重新生成，直到达标。

在 OmniArt 上，音频和视频生成共享同一个工作区。结合两种模态的工作流如下：

用 OmniArt 的视频模型生成或导入视频片段 — Veo 3.1、Sora、Kling 等均可。
打开音频工作区，选择音乐标签页。
撰写 Lyria 3 Pro 提示词，描述场景的情感内容——而不只是抽象的音乐需求。
生成两到三个版本，与画面对比试听。这个质量级别的模型输出通常在一到两次迭代内就能落地。
在同一工作区进行音效层叠加，打造完整的声音底层。更多 SFX 和氛围音选项，参见完整音频模型概览。

提示

描述你正在配乐的场景，而不仅仅是音乐规格。"90 秒产品发布视频的配乐——前三分之一积蓄期待感，产品出现时以温暖满足的收尾收场"，比一个通用的风格提示词能产出更有针对性的结果。

Lyria 3 Pro 特别擅长的风格与使用场景

电影与交响乐 — 完整的动态范围、真实乐器音色、有机的积蓄与释放
氛围与大气 — 长时间的一致性、丰富的纹理层次、细腻的变化
企业与品牌 — 干净、专业的气质，没有"版权音乐"的廉价感
纪录片与叙事 — 在不夸张的前提下提供情感支撑；适合节奏访谈节目
游戏与互动媒体 — 可循环的编曲和中性能量的底层音乐，反复聆听不易疲劳

Lyria 3 Pro vs MiniMax Music 2.6 vs ElevenLabs Music

OmniArt 的音频工作区包含三款音乐模型。正确的选择取决于你是否需要人声，以及你的点数预算。

	Lyria 3 Pro	MiniMax Music 2.6	ElevenLabs Music
点数	20	40	150
可用套餐	STARTER 及以上	FREE 及以上	STARTER 及以上
人声	无	有	有
歌词输入	无	有	有
提示词长度	最长 5,000 字符	标准	标准
曲目时长	自动（最长约 3 分钟）	自动	自动
最适合	电影配乐、氛围垫底音乐、品牌标识音效	带人声的完整歌曲、任意风格	有丰富编曲的结构化歌曲
纯器乐质量	极佳——其核心优势	良好——可通过纯器乐模式使用	良好——具备段落感知编曲能力

选 Lyria 3 Pro 的时机： 你需要高质量的纯器乐配乐，同时希望控制成本。20 点数的定价使多次迭代变得实际可行。5,000 字符的提示词窗口值得你投入详细的描述。

选 MiniMax Music 2.6 的时机： 你需要人声表演、想提供自己的歌词，或者点数预算相对有限，需要一个默认的带人声模型。

选 ElevenLabs Music 的时机： 段落结构和编曲还原度是优先事项，或者预算相对充裕、追求特定声音效果。

如需并排了解 MiniMax Music 2.6 的人声创作工作流，参见 MiniMax Music 2.6：用歌词生成完整歌曲。

在 OmniArt 上开始创作

打开音频工作区，选择音乐标签页。选择 Google Lyria 3 Pro，撰写一段涵盖情绪、乐器、动态和段落结构的提示词——以上面的示例作为起点——然后生成你的第一首曲目。

每次 20 点数，Lyria 3 Pro 让你实际生成五到六个版本的简报并挑选最契合画面的那一个。从上面的预告片配乐提示词开始，根据你的项目调整乐器和场景描述，然后生成。从简报到可用成品，通常只需一到两次尝试。

准备好创作了吗？

开始用 AI 生成精彩内容

免费开始