guideРуководства и инструкции10 мин чтения

8 промптов для Grok Imagine, которые реально работают

Восемь готовых к копированию промптов для Grok Imagine 1.5 — для изображений и видео, построенных на натуральноязыковом стиле FLUX.1 по структуре «Объект + Действие + Камера + Стиль + Звук». Что производит каждый промпт и почему он работает — в OmniArt.

Команда OmniArt
8 промптов для Grok Imagine, которые реально работают

Grok Imagine 1.5 обновил базовую модель изображений до FLUX.1 от Black Forest Labs, и это изменение напрямую влияет на то, как вы пишете промпты: модель воспринимает описание на естественном языке так, как фотограф читает задание, — а не так, как старые модели разбирали списки ключевых слов. Восемь промптов ниже готовы к использованию — вставьте их в рабочее пространство Grok Imagine в OmniArt, скорректируйте детали и генерируйте. Каждая карточка содержит точный текст промпта, описание результата и одну заметку о том, почему структура работает.

Общую теорию промптов для всех моделей OmniArt смотрите в разделе как писать лучшие промпты. Подробный разбор шести режимов генерации Grok Imagine и расчёт стоимости — в руководстве по Grok Imagine для авторов. Эта статья посвящена именно Grok Imagine 1.5 — версии на FLUX.1 — и промпт-технике, которую он вознаграждает.

Что Grok Imagine 1.5 изменил в написании промптов

Базовая модель FLUX.1 обучена иначе, чем более ранние архитектуры text-to-image. Она хорошо разбирает связную прозу и слабо реагирует на нагромождение ключевых слов. Пять привычек надёжнее всего повышают качество результата:

  • Естественный язык вместо перечисления ключевых слов. Законченные предложения превосходят прилагательные через запятую. «Улица в час синевы, подсвеченная гудением вывески круглосуточного магазина» лучше, чем «улица, ночь, неон, кинематографичный, 4K».
  • Конкретные ссылки вместо расплывчатых прилагательных. «Снято на Fujifilm XT4, 23 мм f/2» говорит модели больше, чем «высококачественное фото». Конкретные названия техники и типы плёнки несут в себе реальный вес в латентном пространстве.
  • Точные цвета вместо «яркий». «Электрический синий и горячий розовый» даёт намеренную палитру. «Яркий» — усреднённый шум.
  • Точное время вместо «золотой час». «Конец октября, 17:45, солнце на 6° над горизонтом» сообщает модели точный угол и теплоту света. «Золотой час» — понятие, которое зависит от сезона и широты.
  • Структура для видео: Объект + Действие + Камера + Стиль + Звук. Поместите главный объект и действие в первые 20–30 слов. Один стилевой фокус лучше, чем их смесь. Итерируйте постепенно — меняйте по одной переменной за генерацию до фиксации результата, затем развивайте его дальше.

Полный разбор кинематографического словаря, применимого к видео, — в руководстве по промптам для кинематографического AI-видео, где подробно рассматриваются выбор объектива, мотивированные движения камеры и язык освещения.


8 промптов

1. Кинематографический снимок продукта (изображение)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

Что производит: чистый, художественно выстроенный натюрморт, который воспринимается как профессиональная продуктовая съёмка, а не как AI-картинка.

Почему работает: упоминание Fujifilm XT4 привязывает цветовую науку и рендеринг сенсора к конкретному реальному образу. Угол света задан числом — это не позволяет модели использовать мягкий верхний свет по умолчанию. Ограничение палитры двумя цветами — тёплые янтарные светá, холодные сине-серые тени — не даёт модели ввести третий конкурирующий оттенок.


2. Крупный план персонажа со звуком (видео)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

Что производит: сцену с персонажем и нативным звуком Grok Imagine 1.5 — модель генерирует диалог, синхронизацию губ и фоновый звук за один проход инференса.

Почему работает: реплика достаточно короткая, чтобы уложиться в 8 секунд с чёткой синхронизацией. Два отдельных, названных неоновых источника света (розовый сверху, голубовато-зелёный справа) дают модели чёткую световую карту и не позволяют ей усреднять «неоновый город». «Не кинематографическая драма» — негативное ограничение, которое точнее задаёт настроение, чем позитивное прилагательное.

Совет

Ограничивайте произносимый диалог одним-двумя короткими предложениями в клипах до 10 секунд. Более длинные реплики переполняют отведённое время, и модель может ускорить произнесение или обрезать звук раньше срока.


3. Атмосферная среда — ambient-клип (видео)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

Что производит: атмосферный ambient-клип, идеальный как фоновый материал, переход или вступительная сцена.

Почему работает: «начало ноября, 7 утра» точнее, чем «туманное утро». Движение камеры описано как «почти незаметное» и «плывущее на дыхании» — это точнее задаёт темп, чем «медленный наезд». Запрет музыки не позволяет звуку по умолчанию превращаться в подложку — вместо этого модель создаёт настоящий ambient в стиле полевой записи.


4. Динамичное вертикальное соцсети-видео — презентация продукта (видео)

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

Что производит: энергичный 9:16 социальный клип для TikTok, Reels или Shorts — быстрая подача продукта с нативным звуком.

Почему работает: указание 9:16 в самом начале задаёт соотношение сторон до всего остального. Таймлайн прописан явно («0–2s / 2–8s»), что помогает модели правильно разбить два такта вместо того, чтобы слить их в одно движение. Конкретные звуковые события (звук удара, тон синтезатора) дают более осознанный саунд-дизайн, чем «добавь звуковые эффекты».

Предупреждение

Клипы Grok Imagine 1.5 длятся до 15 секунд. Для социального контента ограничивайтесь 8–10 секундами — движение модели наиболее чистое в этом диапазоне, а окна внимания на соцплатформах коротки. При 720p клип длиной 8 секунд стоит 120 кредитов на OmniArt.


5. Стилизованная иллюстрация (изображение)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

Что производит: графичную иллюстрацию с ограниченной палитрой, которая читается как реальный процесс печати, а не как обобщённый цифровой арт.

Почему работает: называние техники печати (ризограф) и её конкретных ограничений (два цвета краски, плоские формы, без градиентов, несовмещение красочных слоёв) даёт модели полный технический бриф. «Несовмещение красочных слоёв» — именно такая деталь физического процесса, которая закрепляет результат в реальной эстетике. Это FLUX.1-эквивалент упоминания типа плёнки. Без этого модель склонна добавлять градиенты или смешивать цвета.


6. Динамичное движение камеры — отъезд дрона (видео)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

Что производит: длительный 15-секундный раскрывающий план — максимальная длина клипа модели — выстроенный вокруг одного мотивированного движения камеры.

Почему работает: этот промпт использует все 15 секунд для одного непрерывного движения — самый надёжный способ получить чистый результат при такой длительности. Отъезд ограничен постоянной высотой (без наклона), что не позволяет модели импровизировать вторую ось камеры и создавать рваное движение. «Цвет в стиле LOG, лёгкое виньетирование объектива» кодирует образ реальной камеры без упоминания конкретного оборудования.


7. Стилизованная мода — портрет на плёнке (изображение)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

Что производит: портрет в стиле плёночной фотографии с точным винтажным цветовым рендерингом — аутентичное зерно, ореолы засветки и цветовые сдвиги просроченной плёнки.

Почему работает: «просроченная Kodak Portra 400» — одна из самых сильных однофразовых стилевых отсылок в латентном пространстве изображений: она несёт полный набор тональных ожиданий. Указание цветового сдвига («зелёные тона чуть смещены в сторону жёлто-оливкового») исключает обобщённое винтажное зерно и задаёт точное искажение палитры, характерное для просроченной плёнки. Плотный кадр и конкретное соотношение сторон (4:5) создают портрет, который выглядит как настоящий фотоотпечаток.


8. Иммерсивная среда — дождь (видео)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

Что производит: иммерсивный клип от первого лица в атмосферной среде — сильный как вступительный план или как самостоятельная атмосферная зарисовка.

Почему работает: «конец июня, 22:00» задаёт точный сезон, ощущение температуры (влажный летний дождь) и уровень темноты. Велосипедист введён как конкретное событие в конкретный момент («примерно 2 секунды в середине клипа») — это даёт модели нарративную точку опоры без сложных действий персонажа. Звук разбит на три отдельных слоя (дождь по стеклу, шорох шин вдали, мотоцикл), что, как правило, даёт более продуманный саунд-дизайн, чем одно указание «городской шум дождя».


Запуск на OmniArt

Все восемь промптов работают на Grok Imagine 1.5 в рабочем пространстве OmniArt — отдельная подписка xAI не нужна. Промпты для изображений (1, 5, 7) вводятся в пространстве изображений; видеопромпты (2, 3, 4, 6, 8) — в видеопространстве под Grok Imagine.

Несколько практических заметок для работы в OmniArt:

  • Начинайте итерацию с 480p. При 480p видео стоит 10 кредитов в секунду. Когда структура выверена, переключайтесь на 720p (15 кредитов в секунду) для финального дубля.
  • Режим «Продление» для увеличения длительности. Ambient-клип (промпт 3) и отъезд дрона (промпт 6) можно продлить на 15 дополнительных секунд через режим «Продление» Grok Imagine — та же модель, плата только за добавленную часть.
  • Режим «Изменение» для точечных правок. Если освещение в результате почти правильное, но один элемент не так, режим «Изменение» позволяет описать изменение текстом без полной перегенерации клипа. Перед передачей в режим «Изменение» сохраняйте исходные клипы в 480p — этот режим ограничивает вход до 854×480.
  • Постоянство персонажа между планами: если вы генерируете несколько планов с одним персонажем (в стиле промпта 2), используйте режим «Референс» с фотографией лица в качестве @Image1 и повторяйте описание персонажа в каждом новом промпте. Режим «Референс» Grok Imagine 1.5 — наиболее прямой путь к постоянству без тонкой настройки модели.

Полный разбор всех шести режимов генерации Grok Imagine, сценариев стоимости и когда переключаться на другую модель — в полном руководстве по Grok Imagine. Для более широкого кинематографического словаря, применимого к любым видеопромптам, руководство по промптам для кинематографического AI-видео стоит добавить в закладки рядом с этой статьёй.

Готовы создавать?

Начните генерировать впечатляющий контент с ИИ

Начать бесплатно