Grok Imagine 1.5 vs 1.0: что реально меняют +52 Elo
Grok Imagine 1.5 от xAI вырос на +52 Elo по сравнению с 1.0 и занял 1-е место в Image-to-Video Arena. Мы разбираем прирост на четыре изменения, которые создатели ощущают на практике: нативный звук, 15-секундные клипы, стабильность лица и Extend from Frame — с результатами сравнений в OmniArt.

Grok Imagine 1.5 вышел в виде предварительного обновления и сделал заметный скачок: +52 Elo к показателям версии 1.0, что вывело модель на первое место в Image-to-Video Arena — впереди Seedance 2.0, HappyHorse 1.0 и Google Veo по итогам слепого тестирования. Скачок в 52 пункта в зрелом рейтинге — весомый сигнал: это примерно 57% побед версии 1.5 в прямых сравнениях с 1.0.
Число — это заголовок. Для реальной работы важно понять, какие именно изменения его обеспечили. Мы запускали 1.5 параллельно с 1.0 в видеорабочей среде OmniArt, и прирост чётко объясняется четырьмя вещами, которые авторы замечают сразу. Ни одна из них не является незначительной.
Если вы впервые работаете с Grok Imagine, сначала прочитайте вводное руководство — там подробно рассмотрены шесть режимов генерации, паттерны промптов и расчёт кредитов. Эта статья предполагает, что вы уже сделали хотя бы несколько клипов в версии 1.0 и хотите понять, что стоит перегенерировать.
Краткое сравнение характеристик: 1.0 vs 1.5
| Характеристика | Grok Imagine 1.0 | Grok Imagine 1.5 |
|---|---|---|
| Максимальное разрешение | 720p | 720p |
| Максимальная длительность | 10 секунд | 15 секунд |
| Соотношения сторон | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Звук | Нативный, совместная генерация | Нативный, совместная генерация — улучшенный |
| Стабильность лица | Базовый уровень | Заметно улучшена |
| Extend from Frame | Продолжение с последнего кадра | Явный выбор кадра, улучшенная преемственность |
| Основа для генерации изображений | FLUX.1 (Black Forest Labs) | FLUX.1 (Black Forest Labs) |
| Стоимость (480p) | 10 кредитов/сек | 10 кредитов/сек |
| Стоимость (720p) | 15 кредитов/сек | 15 кредитов/сек |
| Место в рейтинге | Несколько строк ниже первого | 1-е место в Image-to-Video Arena |
Ограничение по разрешению и цены в кредитах не изменились. Улучшения — в том, что модель делает в рамках этих ограничений.
Изменение 1: нативный звук звучит как единая генерация
Grok Imagine генерирует звук с версии 1.0 — диалог, синхронизацию губ, звуковые эффекты и фоновую музыку, — всё это строится из видеотокенов в одном проходе вывода без отдельной звуковой модели, которую прикручивают после. На практике у версии 1.0 было два устойчивых дефекта звука: механическое время в диалоге (слова появлялись через равные промежутки, останавливаясь на грамматических границах, а не в естественных паузах) и плоский фон (сцена в кафе с однородным фоновым бормотанием, без пространственной вариативности).
Версия 1.5 решает оба. Та же архитектура с одним проходом теперь создаёт интонацию на уровне фраз: короткие, чёткие реплики завершаются с падающей интонацией, длинная объясняющая речь имеет слышимый подъём в середине фразы перед разрешением. Фоновое звучание ощущается многослойным: уличная сцена генерирует дорожный шум на расстоянии, шаги вблизи, приглушённый звук двери магазина позади объекта съёмки. Это не постобработка — всё генерируется той же покадровой последовательной логикой, которую двигатель Aurora использует для движения: каждый кадр информирует следующий, и акустическая среда следует визуальной траектории.
Промпт для версии 1.0: «Бариста объясняет процесс заваривания покупателю через стойку, фон кофейни, тёплый свет.»
- Результат в 1.0: диалог появлялся метрономными порциями, фоновый звук кофемашины работал на постоянном уровне от начала до конца.
- Результат в 1.5: объяснение баристы имеет естественные паузы в середине фраз, кофемашина нарастает, когда поступает новый заказ, приглушённый ответ покупателя тише и пространственно расположен дальше от доминирующей оси микрофона.
Разница особенно очевидна в клипах с большим количеством диалога. Если вы прежде прогоняли видео Grok 1.0 через отдельную звуковую модель для голосовой работы, версия 1.5 нативно закрывает большую часть этого разрыва.
Изменение 2: 10 секунд становятся 15
Grok Imagine 1.0 ограничивал клипы 10 секундами. Версия 1.5 увеличивает это до 15, поддерживая любую целую длительность от 1 до 15. Дополнительные пять секунд кажутся незначительными. На практике это разница между тем, нужен ли социальному клипу один Extend-проход, или он выходит готовым при первой генерации.
Расчёт кредитов существенно меняется для типичных сценариев:
| Сценарий | 1.0 (макс. 10с + расширение до 15с) | 1.5 (15с нативно) |
|---|---|---|
| 15с TikTok, 480p | 100 (10с) + 75 (5с расширение) = 175 | 150 |
| 15с TikTok, 720p | 150 (10с) + 112,5 (5с расширение) = 262,5 | 225 |
| 10с продуктовый кадр, 720p | 150 | 150 (без изменений) |
Для самого распространённого социального формата — 15-секундного клипа — версия 1.5 стоит примерно на 14% меньше при 480p и на 14% меньше при 720p по сравнению с подходом «генерация + расширение» в версии 1.0, и вы избегаете артефакта шва, который иногда появляется в точке соединения при расширении.
Режим Extend по-прежнему доступен в версии 1.5 для превышения 15 секунд, но теперь вы платите за расширение только для футажа, которому действительно нужно больше хронометража, а не потому, что базовая генерация вынудила сделать срез.
Изменение 3: точность лица и стабильность персонажа
Это наиболее трудноизмеримое изменение и наиболее последовательно упоминаемое в отзывах сообщества. Grok Imagine 1.0 мог сгенерировать убедительное лицо в открывающем кадре и потерять его — с деформацией черт между кадрами, особенно при поворотах головы, переходах освещения или быстром движении. Персонажи, введённые через режим Reference, демонстрировали дрейф пропорций лица в длинных клипах.
Версия 1.5 решает это на архитектурном уровне. Последовательная покадровая генерация двигателя Aurora — где каждый кадр опирается на предыдущий — теперь сохраняет ориентиры лица более стабильно при вращениях и изменениях освещения. Паттерн обратной связи от сообщества устойчив: повороты головы, которые раньше давали жуткие деформации, теперь завершаются чисто при нормальной скорости воспроизведения.
До/после на одном промпте режима Reference: «[@Image1] идёт к камере через туманный переулок, лицо чётко видно, на 8 секундах слегка поворачивается вправо, тёплый уличный фонарь сверху.»
- 1.0: объект сохранял стабильную идентичность во время ходьбы, затем при повороте вправо на кадре середины поворота возник заметный сдвиг ширины челюсти, который резко исправился при разрешении.
- 1.5: тот же поворот завершается без артефакта коррекции. Пропорции челюсти и скул сохраняются на протяжении всего вращения.
Это особенно важно для любого сценария, где лицо персонажа — главный объект съёмки: контент в формате talking head, нарративы с персонажами, демонстрации продукта со спикером и любые клипы, использующие режим Reference для закрепления стабильной идентичности в нескольких кадрах.
Совет
Стабильность персонажа накапливается в режиме Extend. В версии 1.5 расширенный клип сохраняет стабильность ориентиров лица, установленную в исходной генерации. Шов в месте соединения расширения менее заметен, чем в версии 1.0, потому что оба сегмента теперь разделяют одну и ту же базовую геометрию лица.
Изменение 4: Extend from Frame — объединяйте клипы до длины короткометражного фильма
Режим Extend в версии 1.0 добавлял кадры к концу клипа, но возможности управления были ограничены: вы передавали клип модели и просили её продолжить. В версии 1.5 Extend from Frame добавляет явный выбор кадра — вы выбираете конкретный финальный кадр, с которого хотите продолжить, и модель возобновляет с этого точного визуального состояния: та же позиция объекта, то же направление освещения, та же траектория камеры, те же атмосферные условия.
Разница принципиальна, когда генерация даёт правильное начало и середину, но последние кадры отходят от задуманного. В версии 1.0 несовершенный финальный кадр означал либо принять его как отправную точку для расширения, либо заново генерировать весь клип. В версии 1.5 можно выбрать кадр из более раннего момента в генерации — более чистый момент композиции, который вы действительно хотели продолжить, — и расширить с него.
Практический рабочий процесс для более длинных проектов:
- Сгенерируйте 15-секундный вступительный сегмент. Просмотрите, определите лучший завершающий кадр.
- Используйте Extend from Frame, выберите этот кадр, сгенерируйте следующие 15 секунд.
- Повторяйте, пока не достигнете нужного хронометража.
Цепочка из трёх сегментов по 15 секунд даёт 45 секунд футажа с сохранением персонажа, освещения и состояния камеры на стыках. Достаточно для демонстрации продукта, короткой рекламы или вступительной последовательности нарратива — от модели, которая выставляет счёт по секундам по 10–15 кредитов.
Примечание
Режим Extend в OmniArt работает для разных моделей, а не только для Grok Imagine. Вы можете сгенерировать начало с другой моделью и воспользоваться Extend from Frame от Grok Imagine 1.5, чтобы продолжить, перенося улучшения стабильности персонажа на футаж, который возник в другом месте.
Чему в действительности соответствуют +52 Elo
Разрыв в арене раскладывается на эти четыре изменения с учётом частоты, с которой каждое из них встречается в повседневной работе:
| Изменение | Влияние на Elo | Где ощущается |
|---|---|---|
| Натуральность звука | Высокое | Любой клип с диалогом или многослойным фоном |
| Нативная 15-секундная длительность | Умеренное | Социальные форматы на 15 секунд; рабочие процессы с расширением |
| Стабильность лица | Высокое | Talking head, работа с персонажами в режиме Reference, повороты головы |
| Extend from Frame | Умеренное | Многосегментные проекты, цепочки клипов |
В арене конкретно тестируется перевод изображения в видео — входной статичный кадр анимируется. В этом контексте стабильность лица и натуральность звука — два качества, которые слепые голосующие замечают больше всего, что объясняет, откуда пришла основная часть прироста Elo. Длительность и Extend from Frame важнее для опытных пользователей, создающих проекты с несколькими кадрами, чем для голосующего в слепом тесте, смотрящего 5-секундный клип.
Стоит ли заново делать проекты из версии 1.0?
Коротко: да — для любого проекта, где лицо было главным объектом, и да — для всего, что вы делали по схеме «генерация + расширение» для достижения 15 секунд. Для всего остального решение зависит от конкретного проекта.
Переделайте сейчас, если:
- Вы создавали клипы в формате talking head или с акцентом на персонаже в версии 1.0 и замечали дрейф лица в середине клипа. Те же входные данные в режиме Reference должны дать заметно более чистые результаты в версии 1.5.
- Вы создавали 15-секундные клипы как 10с + 5с расширения и получали артефакты шва. Нативная генерация в 15 секунд версии 1.5 устраняет точку соединения.
- Звук был последним препятствием в клипе, который в остальном был почти готов. Натуральная интонация и многослойный фон версии 1.5 решают самые распространённые претензии без необходимости переделывать визуальную часть промпта.
Не стоит переделывать, если:
- Клип был только с движением — без персонажей и диалога. Потолок визуального качества при 720p не изменился, а улучшения поведения расширения незначительны для вывода одного сегмента.
- Вы активно используете режим Modify — он по-прежнему автоматически масштабирует любой ввод выше 854×480 до 480p перед обработкой, и это поведение не изменилось в версии 1.5.
- Оригинал был коротким (менее 8с) атмосферным кадром B-roll без персонажей. Улучшение фонового звука реальное, но при текущих ценах на кредиты вряд ли оправдает перегенерацию.
Предупреждение
Ограничение масштабирования до 480p в режиме Modify не изменилось в версии 1.5. Если вам нужно отредактировать клип 720p без потери разрешения, выполните проход Modify до финальной генерации в 720p, а не после.
Начало работы в OmniArt
Grok Imagine 1.5 доступен в видеорабочей среде OmniArt вместе с V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 и Seedance 2.0. Отдельная подписка xAI не требуется — один и тот же баланс кредитов OmniArt покрывает все модели.
Самый быстрый способ откалибровать версию 1.5 — запустить промпт, который вы уже знаете по версии 1.0. Тот же ввод, результаты рядом, с улучшениями лица и звука, немедленно заметными на фоне вашего базового уровня. Начните с этого, потом решите, какие проекты версии 1.0 действительно стоит переделать.
Полная разбивка шести режимов, расчёт кредитов и паттерны промптов для режима Reference — в руководстве по Grok Imagine. Для сравнения нескольких моделей, где рейтинг Grok Imagine по переводу изображения в видео вписывается в общий ландшафт 2026 года, актуальные позиции представлены в списке лучших ИИ-моделей для перевода изображений в видео.
Готовы создавать?
Начните генерировать впечатляющий контент с ИИ