industryМодели и аналитика10 мин чтения

Grok Imagine 1.5 vs 1.0: что реально меняют +52 Elo

Grok Imagine 1.5 от xAI вырос на +52 Elo по сравнению с 1.0 и занял 1-е место в Image-to-Video Arena. Мы разбираем прирост на четыре изменения, которые создатели ощущают на практике: нативный звук, 15-секундные клипы, стабильность лица и Extend from Frame — с результатами сравнений в OmniArt.

Команда OmniArt
Grok Imagine 1.5 vs 1.0: что реально меняют +52 Elo

Grok Imagine 1.5 вышел в виде предварительного обновления и сделал заметный скачок: +52 Elo к показателям версии 1.0, что вывело модель на первое место в Image-to-Video Arena — впереди Seedance 2.0, HappyHorse 1.0 и Google Veo по итогам слепого тестирования. Скачок в 52 пункта в зрелом рейтинге — весомый сигнал: это примерно 57% побед версии 1.5 в прямых сравнениях с 1.0.

Число — это заголовок. Для реальной работы важно понять, какие именно изменения его обеспечили. Мы запускали 1.5 параллельно с 1.0 в видеорабочей среде OmniArt, и прирост чётко объясняется четырьмя вещами, которые авторы замечают сразу. Ни одна из них не является незначительной.

Если вы впервые работаете с Grok Imagine, сначала прочитайте вводное руководство — там подробно рассмотрены шесть режимов генерации, паттерны промптов и расчёт кредитов. Эта статья предполагает, что вы уже сделали хотя бы несколько клипов в версии 1.0 и хотите понять, что стоит перегенерировать.

Краткое сравнение характеристик: 1.0 vs 1.5

ХарактеристикаGrok Imagine 1.0Grok Imagine 1.5
Максимальное разрешение720p720p
Максимальная длительность10 секунд15 секунд
Соотношения сторон16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:316:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
ЗвукНативный, совместная генерацияНативный, совместная генерация — улучшенный
Стабильность лицаБазовый уровеньЗаметно улучшена
Extend from FrameПродолжение с последнего кадраЯвный выбор кадра, улучшенная преемственность
Основа для генерации изображенийFLUX.1 (Black Forest Labs)FLUX.1 (Black Forest Labs)
Стоимость (480p)10 кредитов/сек10 кредитов/сек
Стоимость (720p)15 кредитов/сек15 кредитов/сек
Место в рейтингеНесколько строк ниже первого1-е место в Image-to-Video Arena

Ограничение по разрешению и цены в кредитах не изменились. Улучшения — в том, что модель делает в рамках этих ограничений.

Изменение 1: нативный звук звучит как единая генерация

Grok Imagine генерирует звук с версии 1.0 — диалог, синхронизацию губ, звуковые эффекты и фоновую музыку, — всё это строится из видеотокенов в одном проходе вывода без отдельной звуковой модели, которую прикручивают после. На практике у версии 1.0 было два устойчивых дефекта звука: механическое время в диалоге (слова появлялись через равные промежутки, останавливаясь на грамматических границах, а не в естественных паузах) и плоский фон (сцена в кафе с однородным фоновым бормотанием, без пространственной вариативности).

Версия 1.5 решает оба. Та же архитектура с одним проходом теперь создаёт интонацию на уровне фраз: короткие, чёткие реплики завершаются с падающей интонацией, длинная объясняющая речь имеет слышимый подъём в середине фразы перед разрешением. Фоновое звучание ощущается многослойным: уличная сцена генерирует дорожный шум на расстоянии, шаги вблизи, приглушённый звук двери магазина позади объекта съёмки. Это не постобработка — всё генерируется той же покадровой последовательной логикой, которую двигатель Aurora использует для движения: каждый кадр информирует следующий, и акустическая среда следует визуальной траектории.

Промпт для версии 1.0: «Бариста объясняет процесс заваривания покупателю через стойку, фон кофейни, тёплый свет.»

  • Результат в 1.0: диалог появлялся метрономными порциями, фоновый звук кофемашины работал на постоянном уровне от начала до конца.
  • Результат в 1.5: объяснение баристы имеет естественные паузы в середине фраз, кофемашина нарастает, когда поступает новый заказ, приглушённый ответ покупателя тише и пространственно расположен дальше от доминирующей оси микрофона.

Разница особенно очевидна в клипах с большим количеством диалога. Если вы прежде прогоняли видео Grok 1.0 через отдельную звуковую модель для голосовой работы, версия 1.5 нативно закрывает большую часть этого разрыва.

Изменение 2: 10 секунд становятся 15

Grok Imagine 1.0 ограничивал клипы 10 секундами. Версия 1.5 увеличивает это до 15, поддерживая любую целую длительность от 1 до 15. Дополнительные пять секунд кажутся незначительными. На практике это разница между тем, нужен ли социальному клипу один Extend-проход, или он выходит готовым при первой генерации.

Расчёт кредитов существенно меняется для типичных сценариев:

Сценарий1.0 (макс. 10с + расширение до 15с)1.5 (15с нативно)
15с TikTok, 480p100 (10с) + 75 (5с расширение) = 175150
15с TikTok, 720p150 (10с) + 112,5 (5с расширение) = 262,5225
10с продуктовый кадр, 720p150150 (без изменений)

Для самого распространённого социального формата — 15-секундного клипа — версия 1.5 стоит примерно на 14% меньше при 480p и на 14% меньше при 720p по сравнению с подходом «генерация + расширение» в версии 1.0, и вы избегаете артефакта шва, который иногда появляется в точке соединения при расширении.

Режим Extend по-прежнему доступен в версии 1.5 для превышения 15 секунд, но теперь вы платите за расширение только для футажа, которому действительно нужно больше хронометража, а не потому, что базовая генерация вынудила сделать срез.

Изменение 3: точность лица и стабильность персонажа

Это наиболее трудноизмеримое изменение и наиболее последовательно упоминаемое в отзывах сообщества. Grok Imagine 1.0 мог сгенерировать убедительное лицо в открывающем кадре и потерять его — с деформацией черт между кадрами, особенно при поворотах головы, переходах освещения или быстром движении. Персонажи, введённые через режим Reference, демонстрировали дрейф пропорций лица в длинных клипах.

Версия 1.5 решает это на архитектурном уровне. Последовательная покадровая генерация двигателя Aurora — где каждый кадр опирается на предыдущий — теперь сохраняет ориентиры лица более стабильно при вращениях и изменениях освещения. Паттерн обратной связи от сообщества устойчив: повороты головы, которые раньше давали жуткие деформации, теперь завершаются чисто при нормальной скорости воспроизведения.

До/после на одном промпте режима Reference: «[@Image1] идёт к камере через туманный переулок, лицо чётко видно, на 8 секундах слегка поворачивается вправо, тёплый уличный фонарь сверху.»

  • 1.0: объект сохранял стабильную идентичность во время ходьбы, затем при повороте вправо на кадре середины поворота возник заметный сдвиг ширины челюсти, который резко исправился при разрешении.
  • 1.5: тот же поворот завершается без артефакта коррекции. Пропорции челюсти и скул сохраняются на протяжении всего вращения.

Это особенно важно для любого сценария, где лицо персонажа — главный объект съёмки: контент в формате talking head, нарративы с персонажами, демонстрации продукта со спикером и любые клипы, использующие режим Reference для закрепления стабильной идентичности в нескольких кадрах.

Совет

Стабильность персонажа накапливается в режиме Extend. В версии 1.5 расширенный клип сохраняет стабильность ориентиров лица, установленную в исходной генерации. Шов в месте соединения расширения менее заметен, чем в версии 1.0, потому что оба сегмента теперь разделяют одну и ту же базовую геометрию лица.

Изменение 4: Extend from Frame — объединяйте клипы до длины короткометражного фильма

Режим Extend в версии 1.0 добавлял кадры к концу клипа, но возможности управления были ограничены: вы передавали клип модели и просили её продолжить. В версии 1.5 Extend from Frame добавляет явный выбор кадра — вы выбираете конкретный финальный кадр, с которого хотите продолжить, и модель возобновляет с этого точного визуального состояния: та же позиция объекта, то же направление освещения, та же траектория камеры, те же атмосферные условия.

Разница принципиальна, когда генерация даёт правильное начало и середину, но последние кадры отходят от задуманного. В версии 1.0 несовершенный финальный кадр означал либо принять его как отправную точку для расширения, либо заново генерировать весь клип. В версии 1.5 можно выбрать кадр из более раннего момента в генерации — более чистый момент композиции, который вы действительно хотели продолжить, — и расширить с него.

Практический рабочий процесс для более длинных проектов:

  1. Сгенерируйте 15-секундный вступительный сегмент. Просмотрите, определите лучший завершающий кадр.
  2. Используйте Extend from Frame, выберите этот кадр, сгенерируйте следующие 15 секунд.
  3. Повторяйте, пока не достигнете нужного хронометража.

Цепочка из трёх сегментов по 15 секунд даёт 45 секунд футажа с сохранением персонажа, освещения и состояния камеры на стыках. Достаточно для демонстрации продукта, короткой рекламы или вступительной последовательности нарратива — от модели, которая выставляет счёт по секундам по 10–15 кредитов.

Примечание

Режим Extend в OmniArt работает для разных моделей, а не только для Grok Imagine. Вы можете сгенерировать начало с другой моделью и воспользоваться Extend from Frame от Grok Imagine 1.5, чтобы продолжить, перенося улучшения стабильности персонажа на футаж, который возник в другом месте.

Чему в действительности соответствуют +52 Elo

Разрыв в арене раскладывается на эти четыре изменения с учётом частоты, с которой каждое из них встречается в повседневной работе:

ИзменениеВлияние на EloГде ощущается
Натуральность звукаВысокоеЛюбой клип с диалогом или многослойным фоном
Нативная 15-секундная длительностьУмеренноеСоциальные форматы на 15 секунд; рабочие процессы с расширением
Стабильность лицаВысокоеTalking head, работа с персонажами в режиме Reference, повороты головы
Extend from FrameУмеренноеМногосегментные проекты, цепочки клипов

В арене конкретно тестируется перевод изображения в видео — входной статичный кадр анимируется. В этом контексте стабильность лица и натуральность звука — два качества, которые слепые голосующие замечают больше всего, что объясняет, откуда пришла основная часть прироста Elo. Длительность и Extend from Frame важнее для опытных пользователей, создающих проекты с несколькими кадрами, чем для голосующего в слепом тесте, смотрящего 5-секундный клип.

Стоит ли заново делать проекты из версии 1.0?

Коротко: да — для любого проекта, где лицо было главным объектом, и да — для всего, что вы делали по схеме «генерация + расширение» для достижения 15 секунд. Для всего остального решение зависит от конкретного проекта.

Переделайте сейчас, если:

  • Вы создавали клипы в формате talking head или с акцентом на персонаже в версии 1.0 и замечали дрейф лица в середине клипа. Те же входные данные в режиме Reference должны дать заметно более чистые результаты в версии 1.5.
  • Вы создавали 15-секундные клипы как 10с + 5с расширения и получали артефакты шва. Нативная генерация в 15 секунд версии 1.5 устраняет точку соединения.
  • Звук был последним препятствием в клипе, который в остальном был почти готов. Натуральная интонация и многослойный фон версии 1.5 решают самые распространённые претензии без необходимости переделывать визуальную часть промпта.

Не стоит переделывать, если:

  • Клип был только с движением — без персонажей и диалога. Потолок визуального качества при 720p не изменился, а улучшения поведения расширения незначительны для вывода одного сегмента.
  • Вы активно используете режим Modify — он по-прежнему автоматически масштабирует любой ввод выше 854×480 до 480p перед обработкой, и это поведение не изменилось в версии 1.5.
  • Оригинал был коротким (менее 8с) атмосферным кадром B-roll без персонажей. Улучшение фонового звука реальное, но при текущих ценах на кредиты вряд ли оправдает перегенерацию.

Предупреждение

Ограничение масштабирования до 480p в режиме Modify не изменилось в версии 1.5. Если вам нужно отредактировать клип 720p без потери разрешения, выполните проход Modify до финальной генерации в 720p, а не после.

Начало работы в OmniArt

Grok Imagine 1.5 доступен в видеорабочей среде OmniArt вместе с V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 и Seedance 2.0. Отдельная подписка xAI не требуется — один и тот же баланс кредитов OmniArt покрывает все модели.

Самый быстрый способ откалибровать версию 1.5 — запустить промпт, который вы уже знаете по версии 1.0. Тот же ввод, результаты рядом, с улучшениями лица и звука, немедленно заметными на фоне вашего базового уровня. Начните с этого, потом решите, какие проекты версии 1.0 действительно стоит переделать.

Полная разбивка шести режимов, расчёт кредитов и паттерны промптов для режима Reference — в руководстве по Grok Imagine. Для сравнения нескольких моделей, где рейтинг Grok Imagine по переводу изображения в видео вписывается в общий ландшафт 2026 года, актуальные позиции представлены в списке лучших ИИ-моделей для перевода изображений в видео.

Готовы создавать?

Начните генерировать впечатляющий контент с ИИ

Начать бесплатно