industryМодели и аналитика5 мин чтения

Ввод any-to-any в Gemini Omni Flash: что он действительно делает

Омнимодальность — коронный тезис Gemini Omni Flash, но вышедший API уже маркетинга. Разбираем, что ввод any-to-any на самом деле меняет в задании для модели.

Команда OmniArt
Ввод any-to-any в Gemini Omni Flash: что он действительно делает

Главную нагрузку в запуске Gemini Omni Flash несло слово «Omni» — обещание единой модели, которой можно скормить текст, изображения, звук и видео сразу, в одном промпте. Это по-настоящему иной тезис, чем у предшествовавших видеомоделей с одним входом, и именно он оправдывает название модели. Но версия, которая вышла в API для разработчиков, уже, чем формулировки с презентации, и этот разрыв важен, если вы планируете вокруг неё реальную работу.

В этом материале мы отделяем то, что any-to-any действительно даёт сегодня, от того, что пока остаётся мечтой, — а затем переходим к более полезному вопросу: как мультимодальный ввод вообще меняет способ, которым вы пишете задание.

Что на самом деле означает «any-to-any»

Большинство видеомоделей принимают один вид управления. Вы пишете текст либо подаёте одно референсное изображение, и модель работает от него. Ввод any-to-any означает, что одна грамматика промпта принимает несколько модальностей вместе и возвращает связный результат, учитывающий их все: референсный кадр — для внешнего вида, короткий клип — для движения и письменное указание — для всего остального. Соединённые, а не выбранные одно вместо другого.

Сдвиг идёт от описания кадра словами к его компоновке из ассетов. Это и есть настоящая возможность, и именно поэтому «омнимодальность» — не чистый маркетинг. Вопрос в том, какая её часть уже работает.

Обещание против вышедшего API

Вот честная матрица для текущего preview, прямо из документации самого API:

ВходСтатусПримечания
Текстовый промптПоддержанОснова каждой генерации
Референс-изображениеПоддержанText-to-video, image-to-video и субъектный референс
ВидеореференсПоддержан, с оговоркойРеференсы длиннее 3 секунд обрабатываются не полностью
АудиореференсНе поддержанНельзя загрузить звук или голос, которому модель должна соответствовать
Несколько видеореференсовНе поддержанОдин референсный клип на генерацию
Промпты не на английскомНе протестированыПолностью поддержан только английский

Предупреждение

Пробел со звуком — тот, что вероятнее всего сорвёт план. Omni Flash по умолчанию генерирует звуковую дорожку, но «any-to-any» не включает передачу ей музыкальной подложки, закадрового голоса или атмосферной записи для синхронизации. Звук — это выход, которым вы управляете словами, а не вход, который вы подаёте.

Отсюда точное прочтение: any-to-any сегодня — это текст + изображение + видео на входе, видео (со сгенерированным звуком) на выходе. Аудио-часть омнимодального обещания намеренно придержана — согласуясь с функциями редактирования речи в видео и аватарами, которые Google придержала на запуске из соображений безопасности. Это реальное изменение возможностей по сравнению с моделями с одним входом; просто это ещё не полная картина any-to-any-to-any, которую подразумевает название.

Что мультимодальный ввод меняет в задании

Как только вы компонуете из ассетов вместо описания прозой, само задание меняет форму. Три входа выполняют разную работу, и мастерство — в том, чтобы назначить каждый на то, в чём он лучше всего:

  • Референс-изображение несёт внешний вид — субъект, палитру, кадрирование, которые вам уже нравятся.
  • Видеореференс несёт движение — движение камеры или действие, которое вы хотите повторить.
  • Текст несёт намерение и всё, чего ассеты ещё не показывают, — настроение, изменения, то, чего нет ни в одном из референсов.

Практический эффект в том, что вы перестаёте пытаться перевести картинку в прилагательные. Вместо «тёплый крупный план с малой глубиной резкости и медленным наездом» вы подаёте кадр, который уже так выглядит, и клип, который уже так движется, и тратите слова на то, что нового. Для всех, кто бился над описанием конкретной эстетики текстом, это и есть разблокировка процесса.

Четыре режима задач и как они сочетаются

API открывает четыре типа task, и они чисто ложатся на идею «собери из ассетов»:

  1. text_to_video — чистое описание, без ассетов. Запасной вариант, когда вы стартуете с нуля.
  2. image_to_video — оживить статичный кадр. Самая частая точка входа: сильное изображение становится первым кадром движения.
  3. reference_to_video — перенести субъект или стиль из референса в новую генерацию.
  4. edit — диалоговый режим с сохранением состояния, который правит предыдущий клип, сохраняя то, что вы не меняли.

Задуманный поток сцепляет их: сгенерируйте или оживите базу одним из первых трёх, затем перейдите в edit и дорабатывайте в диалоге. Это та же форма, что и в собственной связке Google Nano Banana 2 Lite с Omni Flash — отредактировать статичный кадр, затем оживить его, — расширенная на несколько ходов.

Нюанс со звуком, разложенный по полкам

Поскольку звук нельзя подать, саунд-дизайн становится задачей письма. Модель производит диалог, эффекты и атмосферу на основе того, что описывает ваш промпт, — «лёгкий дождь по стеклу, без музыки» или «один мягкий щелчок, затем тишина комнаты». Вы получаете осмысленный контроль, но это описательный контроль, и он означает две вещи для планирования:

  • Если проекту нужно, чтобы сгенерированное видео совпало с существующей дорожкой — лицензированной песней, брендовым джинглом, записанной озвучкой, — эта синхронизация происходит в отдельном аудио-шаге, а не внутри Omni Flash.
  • Если вам просто нужен подходящий оригинальный звук, хорошее описание в промпте приведёт вас к цели без загрузки.

Где сегодня находится OmniArt

Процесс «собери из ассетов» — не то, ради чего нужно ждать Omni Flash, чтобы попробовать: он уже работает на моделях, доступных в видео-пространстве OmniArt, и в одном отношении они идут дальше.

Seedance 2.0, доступная в OmniArt сейчас, была построена ровно вокруг этой идеи: она принимает до девяти изображений, трёх видеоклипов и — что примечательно — трёх аудиофайлов в одном промпте, каждый привязан к роли синтаксисом @image1 / @video1 / @audio1. Сюда входит и аудиореференс, который Omni Flash придерживает. Если ваше задание зависит от того, чтобы скормить модели конкретный звук для работы, этот путь существует уже сегодня.

И направление движения по всей отрасли очевидно: Seedance 2.5, анонсированная в июне, доводит ту же референсную архитектуру до целых 50 мультимодальных входов за раз. Ввод any-to-any — история не одной модели, а того, куда движется управляемое ИИ-видео. Omni Flash назвала идею; рабочее пространство уже позволяет её отрабатывать.

Откройте видео-пространство в OmniArt, соберите набор референсов и позвольте ассетам нести внешний вид и движение, пока ваши слова несут намерение. Это и есть задание any-to-any, доступное уже сейчас.

Готовы создавать?

Начните генерировать впечатляющий контент с ИИ

Начать бесплатно