guideРуководства и инструкции10 мин чтения

Veo 3.1 пространственное аудио: лучшие практики для звука, который соответствует кадру

Veo 3.1 генерирует диалог, атмосферу и SFX совместно с видео — с реальной направленной глубиной. Как прописывать каждый аудиослой намеренно, чтобы звук действительно подходил к кадру в OmniArt.

Команда OmniArt
Veo 3.1 пространственное аудио: лучшие практики для звука, который соответствует кадру

Большинство аудиодорожек в ИИ-видео звучат так, будто звук поместили в кадр, а не он там присутствует. Клип с оживлённым рынком получает шум толпы, клип с лесом — птичье пение. Технически верно — и при этом неубедительно, потому что звук не знает, где именно в кадре находятся объекты. Veo 3.1 меняет это с помощью нативного пространственного аудио: модель генерирует звук одновременно с видео, понимая, что находится близко, что далеко, что приглушено, а что пробивается. Дверь, закрывающаяся за спиной персонажа, звучит иначе, чем дверь на переднем плане. Шум транспорта в трёх этажах ниже тише и рассеяннее, чем на уровне улицы. В этом руководстве объясняется, как работает совместная генерация аудио Veo, как отдельно обдумывать три звуковых слоя и как писать промпты, которые дают пространственную глубину с первого запуска, — с тремя разобранными сценами, которые можно адаптировать прямо сейчас.

Как работает нативное аудио Veo 3.1

Veo 3.1 генерирует аудио и видео за один совместный проход. В отличие от двухэтапного пайплайна — где сначала экспортируется немое видео, а аудиомодель затем пытается его озвучить, — Veo строит звуковой ландшафт одновременно с построением кадров. Модель знает пространственную структуру генерируемой сцены: какие элементы находятся близко к камере, какие на заднем плане, насколько плотная среда, будут ли поверхности поглощать или отражать звук.

Практический результат — направленность. Ближнеполевые элементы (шаги персонажа, рука, касающаяся поверхности, дыхание) расположены на иной кажущейся дистанции, чем фоновые элементы (уличный шум, окружающее гудение, говор толпы). Модель может накладывать их на нужных относительных уровнях именно потому, что строит пространственную сцену, а не выводит её постфактум.

Примечание

Нативное аудио доступно во всех трёх вариантах Veo 3.1 на OmniArt: veo-3.1-standard, veo-3.1-fast и veo-3.1-lite. Пространственная согласованность одинакова во всех вариантах; основные различия между ними — скорость генерации и максимальное разрешение, а не качество аудио.

Veo 3.1 также поддерживает нативный вывод в 4K, что имеет одно конкретное значение для аудиопромптов: более высокая визуальная детализация означает больше деталей окружения в кадре — и больше деталей, на которые может реагировать аудиомодель. Крупный план мокрой брусчатки в 4K даёт модели значительно больше материала для работы, чем размытый рендер той же сцены в 720p.

Три аудиослоя, которые нужно обдумывать отдельно

Наиболее надёжный способ получить полезный результат от генерации аудио Veo 3.1 — разделить звуковые инструкции на три слоя в голове, прежде чем написать хоть слово промпта. У каждого слоя разные характеристики, и каждый реагирует на разные паттерны промптов.

Диалог

Диалог — наиболее точно управляемый слой. Модели нужна явная информация: что произносится, кто говорит и как это должно быть подано. В отличие от фоновых звуков — где модель может многое вывести из визуального контекста — у диалога нет визуального коррелята, который модель могла бы считать. Персонаж, идущий и говорящий, выглядит одинаково, зачитывает ли он список покупок или произносит монолог.

Напишите реплику дословно, затем добавьте ремарку подачи. Один точный описательный прилагательный, как правило, эффективнее двух-трёх. Надёжно работающие ремарки подачи: warm and unhurried (тепло и неторопливо), flat and exhausted (монотонно и опустошённо), urgent, just above a whisper (тревожно, чуть выше шёпота), soft but careful (мягко, но осторожно). Ремарки, дающие усреднённый результат: сочетание противоположностей — relaxed but tense или quiet but intense.

Пространственный контекст важен и для диалога. Voice close-mic'd, room barely audible даёт иной результат, чем voice slightly distant, reverberant room. Модель подстроит акустическую среду под описанный уровень окружающего пространства.

Атмосфера и окружение

Атмосфера — слой, с которым Veo 3.1 работает наиболее самобытно. Поскольку модель знает генерируемую пространственную структуру, вы можете описать окружение через слои и расстояния, и модель действительно на это откликнется.

Полезная ментальная модель: представьте три концентрические зоны — ближний план (в пределах досягаемости от камеры), средний план (активное пространство сцены) и дальний план (то, что слышно через окна или с края кадра). Называя элементы в каждой зоне и указывая их относительные уровни, вы даёте модели целевой пространственный баланс.

ЗонаПримеры элементовФормулировка в промпте
Ближний планШорох ткани, дыхание, руки на поверхности"close fabric rustle", "subject's quiet breathing"
Средний планШаги, разговор, инструменты, звуки готовки"footsteps on concrete nearby", "clink of cups on the counter"
Дальний планУличный трафик, гул толпы, окружающее гудение"traffic muffled behind glass", "distant crowd, barely audible"

Заполнять все три зоны не обязательно. Минималистичная интерьерная сцена может потребовать лишь одного элемента среднего плана и едва заметного тона помещения. Излишняя детализация зон, в которых звука быть не должно, засоряет баланс.

Звуковые эффекты (SFX)

SFX — это дискретные звуковые события, привязанные к конкретным визуальным моментам: открывающаяся дверь, опускаемый предмет, звук уведомления, проезжающий автомобиль. Поскольку Veo генерирует аудио совместно с видео, SFX, соответствующие видимым на экране действиям, естественно синхронизируются — модель «знает», что рука тянется к стакану, прежде чем коснётся его.

Для SFX, которые должны попасть точно, описывайте их как визуальные события, а не аудиособытия. «She sets the phone face-down on the desk» даёт указание и на визуальное действие, и на производимый им звук; «a clunk as the phone hits the desk» описывает звук абстрактно, и модели сложнее его синхронизировать.

Если нужен SFX, не привязанный к действию на экране — звук за кадром, атмосферная пунктуация, — обращайтесь с ним как с репликой диалога: назовите его явно и дайте пространственный контекст. «A car alarm starts briefly in the distance, off-frame right» точнее, чем «random street noise includes a car alarm».

Три разобранных сцены

Эти примеры показывают полный паттерн промпта применительно к трём разным аудиосценариям. Каждый демонстрирует отдельную основную задачу звука.

Сцена 1: Пространственное разделение ближнее/дальнее на улице

Контекст: Персонаж идёт по торговой улице к входу в магазин. Аудио должно показать пространственное различие между ближними элементами (шаги персонажа, фоновое дыхание) и окружающей средой (трафик, дверь магазина).

Промпт:

"Medium shot following a person walking along a busy city street toward a café entrance, overcast daylight. Audio: subject's footsteps on wet pavement close and clear; street traffic — buses, cars — sitting further back, diffuse and slightly muffled; as the subject reaches for the café door, the door's hinge and the muffled interior sound briefly audible, then the street noise dropping away as they step inside. No music."

Чего ожидать: Шаги должны находиться в ближнем поле, чётко отделённые от фонового трафика. Переход у двери — с открытого улицы в приглушённый интерьер — это то пространственное событие, на которое направлен промпт; совместная генерация Veo означает, что модель знает визуальную блокировку этого момента.

Рычаги настройки: Если трафик звучит слишком громко относительно шагов, добавьте traffic well back, not competing with footsteps. Если переход у двери слишком резкий, добавьте gradual acoustic shift as the door opens.


Сцена 2: Настроенческий кадр без диалога, целиком построенный на атмосфере

Контекст: Широкий интерьерный кадр в сумерках — без диалога, без явного действия. Аудио должно передавать эмоциональный регистр сцены исключительно через слои окружения.

Промпт:

"Wide shot of an empty apartment living room at dusk, warm orange light through venetian blinds making stripe patterns across the floor. No person present. Audio: distant traffic hum from outside (well back, through glass), occasional creak of the building settling, a single car passing slowly on the street below — its engine present then gone — faint hiss of an old radiator in the foreground right. No music. The overall room feel should be quiet enough to hear the silence between sounds."

Чего ожидать: Многослойный атмосферный баланс, в котором паузы между звуковыми событиями так же слышны, как и сами события. Модель должна воспринять quiet enough to hear the silence between sounds как инструкцию по уровню — держать все элементы достаточно тихими, чтобы ощущался тон помещения.

Рычаги настройки: Фразу quiet enough to hear the silence можно усилить, добавив each element appearing only briefly, not constant. Добавьте a phone buzzing once on a surface, off-frame, чтобы ввести нарративную пунктуацию без нарушения атмосферы.

Совет

Атмосферные сцены без диалога — там, где пространственный звук Veo 3.1 наиболее очевидно превосходит плоские аудиомодели. Если результат звучит как единая зацикленная фоновая дорожка, а не многослойное окружение, промпт скорее всего недостаточно конкретизирован — добавьте второй или третий именованный элемент с явной пространственной привязкой.

Сцена 3: Интонация на уровне фразы в диалоге

Контекст: Персонаж задаёт один вопрос в камеру. Подача должна иметь естественную интонацию на уровне предложения — в особенности слышимый подъём в конце вопроса, — а не монотонное чтение.

Промпт:

"Close-up of a man in his 40s at a wooden desk, warm desk lamp, bookshelves behind him. He looks directly at camera, slight pause, then says 'Did you really think I wouldn't find out?' — delivery quiet, genuinely confused rather than angry, voice rising slightly on 'find out'. Room: light ambient hum from an unseen HVAC, no reverb, no music."

Чего ожидать: Ремарки rising slightly on 'find out' и genuinely confused rather than angry должны формировать как форму аудиоволны, так и высотный контур подачи. Инструкции по тону помещения (no reverb) устанавливают акустическую среду, чтобы диалог не звучал так, будто он записан в другом пространстве.

Рычаги настройки: Если подача слишком ровная, замените quiet на controlled but emotionally present. Если интонация фразы не прослеживается, разделите ремарку подачи и эмоциональную ремарку: сначала укажите эмоцию, затем конкретную инструкцию по интонации.


Перед повторной генерацией: читаем плоский или механический результат

Не каждая генерация требует переработки промпта. Некоторые результаты нуждаются лишь в большей продолжительности или другом зерне. Но есть конкретные паттерны, указывающие на то, что сам промпт является проблемой:

Плоский результат (нет пространственной глубины): Все звуковые элементы находятся на одной кажущейся дистанции без разделения передний/задний план. Исправление: добавьте явные пространственные обозначения минимум к двум элементам — один помечен как близкий, другой как дальний или приглушённый. Модели нужен контраст для работы.

Механический диалог: Подача с равномерным темпом, без пауз, без изменений высоты, без интонации на последнем слоге. Исправление: включите в промпт одну конкретную инструкцию по интонации (подъём в конце вопроса, замедление на эмоциональном ударении, спад в конце утверждения). Абстрактные ремарки вроде natural или realistic слишком размыты, чтобы что-то изменить.

Перегруженный баланс: Слишком много элементов борются за присутствие, ничто не занимает чёткого места. Исправление: сократите до двух-трёх важнейших элементов и явно опишите их относительные уровни. Три хорошо расставленных звука лучше семи конкурирующих.

Неверная акустическая среда: Помещение звучит слишком реверберантно или слишком сухо для визуала. Исправление: прямо назовите акустический характер — dry, close-mic'd room, medium reverb, concrete walls, outdoor, open air, no reflections.

СимптомВероятная причинаИсправление
Нет пространственной глубиныОтсутствуют обозначения близкого/дальнегоДобавить явные квалификаторы расстояния к 2+ элементам
Механический диалогРазмытые ремарки подачиДобавить одну конкретную инструкцию по интонации
Перегруженный балансСлишком много источниковСократить до 2–3 элементов с относительными уровнями
Неверная акустическая средаАкустический контекст не указанЯвно назвать характер помещения

Резюме лучших практик

Что делатьПочему
Мысленно разделить диалог, атмосферу и SFX перед написаниемКаждый слой реагирует на разные паттерны промптов
Называть элементы окружения по зонам — ближний, средний, дальний планДаёт модели целевой пространственный баланс, а не плоское описание
Писать реплики диалога дословно с ремаркой подачиМодели нужен точный текст и тональное направление
Описывать SFX как визуальные события, а не аудиособытияСинхронизация с действием на экране моделируется легче, чем абстрактный тайминг
Использовать no music, когда нужны только эффектыПредотвращает добавление фоновой дорожки автоматическим озвучиванием
Держать количество именованных элементов небольшимТри хорошо расставленных звука превосходят семь конкурирующих
Называть акустическую средуХарактер помещения определяет позиционирование всех остальных элементов

Начните работу на OmniArt

Все три варианта Veo 3.1 — veo-3.1-standard, veo-3.1-fast и veo-3.1-lite — доступны в видеорабочем пространстве OmniArt с единым балансом кредитов и интерфейсом промптов, без отдельного аккаунта Google или API-ключа. Самый быстрый способ откалибровать аудиопромпты — начать с единственного контраста «близко/далеко» в простой сцене, посмотреть, что выдаёт модель, а затем добавлять слои по одному, пока баланс не окажется там, где нужно.

За более широким охватом кинематографии и структуры промптов Veo 3.1 обратитесь к руководству по промптам и кинематографии Veo 3.1. Если вы работаете с моделью, которая генерирует аудио за один совместный проход на другом пайплайне, паттерны в руководстве по нативному аудио Grok Imagine охватывают аналогичную логику промптов для нативной аудиосистемы xAI.

Начать генерацию на OmniArt

Готовы создавать?

Начните генерировать впечатляющий контент с ИИ

Начать бесплатно