Ввод any-to-any в Gemini Omni Flash: что он действительно делает
Омнимодальность — коронный тезис Gemini Omni Flash, но вышедший API уже маркетинга. Разбираем, что ввод any-to-any на самом деле меняет в задании для модели.

Главную нагрузку в запуске Gemini Omni Flash несло слово «Omni» — обещание единой модели, которой можно скормить текст, изображения, звук и видео сразу, в одном промпте. Это по-настоящему иной тезис, чем у предшествовавших видеомоделей с одним входом, и именно он оправдывает название модели. Но версия, которая вышла в API для разработчиков, уже, чем формулировки с презентации, и этот разрыв важен, если вы планируете вокруг неё реальную работу.
В этом материале мы отделяем то, что any-to-any действительно даёт сегодня, от того, что пока остаётся мечтой, — а затем переходим к более полезному вопросу: как мультимодальный ввод вообще меняет способ, которым вы пишете задание.
Что на самом деле означает «any-to-any»
Большинство видеомоделей принимают один вид управления. Вы пишете текст либо подаёте одно референсное изображение, и модель работает от него. Ввод any-to-any означает, что одна грамматика промпта принимает несколько модальностей вместе и возвращает связный результат, учитывающий их все: референсный кадр — для внешнего вида, короткий клип — для движения и письменное указание — для всего остального. Соединённые, а не выбранные одно вместо другого.
Сдвиг идёт от описания кадра словами к его компоновке из ассетов. Это и есть настоящая возможность, и именно поэтому «омнимодальность» — не чистый маркетинг. Вопрос в том, какая её часть уже работает.
Обещание против вышедшего API
Вот честная матрица для текущего preview, прямо из документации самого API:
| Вход | Статус | Примечания |
|---|---|---|
| Текстовый промпт | Поддержан | Основа каждой генерации |
| Референс-изображение | Поддержан | Text-to-video, image-to-video и субъектный референс |
| Видеореференс | Поддержан, с оговоркой | Референсы длиннее 3 секунд обрабатываются не полностью |
| Аудиореференс | Не поддержан | Нельзя загрузить звук или голос, которому модель должна соответствовать |
| Несколько видеореференсов | Не поддержан | Один референсный клип на генерацию |
| Промпты не на английском | Не протестированы | Полностью поддержан только английский |
Предупреждение
Пробел со звуком — тот, что вероятнее всего сорвёт план. Omni Flash по умолчанию генерирует звуковую дорожку, но «any-to-any» не включает передачу ей музыкальной подложки, закадрового голоса или атмосферной записи для синхронизации. Звук — это выход, которым вы управляете словами, а не вход, который вы подаёте.
Отсюда точное прочтение: any-to-any сегодня — это текст + изображение + видео на входе, видео (со сгенерированным звуком) на выходе. Аудио-часть омнимодального обещания намеренно придержана — согласуясь с функциями редактирования речи в видео и аватарами, которые Google придержала на запуске из соображений безопасности. Это реальное изменение возможностей по сравнению с моделями с одним входом; просто это ещё не полная картина any-to-any-to-any, которую подразумевает название.
Что мультимодальный ввод меняет в задании
Как только вы компонуете из ассетов вместо описания прозой, само задание меняет форму. Три входа выполняют разную работу, и мастерство — в том, чтобы назначить каждый на то, в чём он лучше всего:
- Референс-изображение несёт внешний вид — субъект, палитру, кадрирование, которые вам уже нравятся.
- Видеореференс несёт движение — движение камеры или действие, которое вы хотите повторить.
- Текст несёт намерение и всё, чего ассеты ещё не показывают, — настроение, изменения, то, чего нет ни в одном из референсов.
Практический эффект в том, что вы перестаёте пытаться перевести картинку в прилагательные. Вместо «тёплый крупный план с малой глубиной резкости и медленным наездом» вы подаёте кадр, который уже так выглядит, и клип, который уже так движется, и тратите слова на то, что нового. Для всех, кто бился над описанием конкретной эстетики текстом, это и есть разблокировка процесса.
Четыре режима задач и как они сочетаются
API открывает четыре типа task, и они чисто ложатся на идею «собери из ассетов»:
text_to_video— чистое описание, без ассетов. Запасной вариант, когда вы стартуете с нуля.image_to_video— оживить статичный кадр. Самая частая точка входа: сильное изображение становится первым кадром движения.reference_to_video— перенести субъект или стиль из референса в новую генерацию.edit— диалоговый режим с сохранением состояния, который правит предыдущий клип, сохраняя то, что вы не меняли.
Задуманный поток сцепляет их: сгенерируйте или оживите базу одним из первых трёх, затем перейдите в edit и дорабатывайте в диалоге. Это та же форма, что и в собственной связке Google Nano Banana 2 Lite с Omni Flash — отредактировать статичный кадр, затем оживить его, — расширенная на несколько ходов.
Нюанс со звуком, разложенный по полкам
Поскольку звук нельзя подать, саунд-дизайн становится задачей письма. Модель производит диалог, эффекты и атмосферу на основе того, что описывает ваш промпт, — «лёгкий дождь по стеклу, без музыки» или «один мягкий щелчок, затем тишина комнаты». Вы получаете осмысленный контроль, но это описательный контроль, и он означает две вещи для планирования:
- Если проекту нужно, чтобы сгенерированное видео совпало с существующей дорожкой — лицензированной песней, брендовым джинглом, записанной озвучкой, — эта синхронизация происходит в отдельном аудио-шаге, а не внутри Omni Flash.
- Если вам просто нужен подходящий оригинальный звук, хорошее описание в промпте приведёт вас к цели без загрузки.
Где сегодня находится OmniArt
Процесс «собери из ассетов» — не то, ради чего нужно ждать Omni Flash, чтобы попробовать: он уже работает на моделях, доступных в видео-пространстве OmniArt, и в одном отношении они идут дальше.
Seedance 2.0, доступная в OmniArt сейчас, была построена ровно вокруг этой идеи: она принимает до девяти изображений, трёх видеоклипов и — что примечательно — трёх аудиофайлов в одном промпте, каждый привязан к роли синтаксисом @image1 / @video1 / @audio1. Сюда входит и аудиореференс, который Omni Flash придерживает. Если ваше задание зависит от того, чтобы скормить модели конкретный звук для работы, этот путь существует уже сегодня.
И направление движения по всей отрасли очевидно: Seedance 2.5, анонсированная в июне, доводит ту же референсную архитектуру до целых 50 мультимодальных входов за раз. Ввод any-to-any — история не одной модели, а того, куда движется управляемое ИИ-видео. Omni Flash назвала идею; рабочее пространство уже позволяет её отрабатывать.
Откройте видео-пространство в OmniArt, соберите набор референсов и позвольте ассетам нести внешний вид и движение, пока ваши слова несут намерение. Это и есть задание any-to-any, доступное уже сейчас.
Готовы создавать?
Начните генерировать впечатляющий контент с ИИ