Grok Imagine: guia do criador para o modelo de vídeo da xAI em 2026
Guia prático do Grok Imagine — seis modos de geração, padrões de prompt, custo real em créditos e quando escolhê-lo em vez de V6 ou Sora 2.

O Grok Imagine é o modelo de geração de vídeo e áudio da xAI, lançado em janeiro de 2026 e acessível pela OmniArt sem assinatura xAI separada. É produto diferente do chatbot Grok — compartilham nome e nada mais. Este guia cobre para que o Grok Imagine foi feito, os seis modos que importam, padrões de prompt por modo e a conta do que projetos reais custam em créditos.
O que é o Grok Imagine
O Grok Imagine gera vídeo até 720p com áudio nativo em clipes de 1–15 segundos. O truque não é resolução — a 720p ele não disputa fidelidade bruta com Sora 2 ou V6. O truque é a superfície de workflow: seis modos no mesmo weight set para gerar, estender, restilizar e modificar sem trocar de modelo.
| Especificação | Valor |
|---|---|
| Resolução máxima | 720p (use V6 para 1080p+) |
| Duração máxima | 15 s por geração |
| Aspect ratios | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Áudio | Nativo, gerado junto com o vídeo |
| Custo (480p) | 10 créditos por segundo |
| Custo (720p) | 15 créditos por segundo |
Os seis modos que valem conhecer
Cada modo diz ao modelo que tipo de entrada está recebendo. Escolher o modo certo é boa parte do prompt engineering.
Text-to-Video
O default. Escreva o prompt, receba o clipe. Melhor para exploração de conceito, mood boards e rascunhos sociais sem imagem de referência. Custo 10–15 créditos/s conforme resolução.
Image-to-Video
Anima um still preservando a composição de entrada. O primeiro frame fica travado na sua imagem. Use para ilustrações, fotografia de produto e mockups onde o frame fonte é inegociável.
Reference Mode — o diferencial
Aceita 1–7 imagens como âncoras visuais sem travar o primeiro frame. Marque com @Image1, @Image2, @Image3 e referencie no prompt. A maioria dos outros modelos ou trava o primeiro frame (image-to-video) ou não aceita referência (text-to-video). Reference Mode fica no meio — caminho mais limpo para consistência de personagem entre shots.
Custo 15 créditos/s em 480p, 22,5 em 720p.
Extend Mode
Acrescenta 2–10 s a um clipe existente. Entrada MP4 entre 2 e 15 s. Saída contínua; cobrança só no trecho acrescentado. Truque cross-model: Extend funciona em vídeos gerados por qualquer modelo no workspace de vídeo OmniArt.
Modify Mode
Edita clipe sem regerar — troca de fundo, luz, cor em objetos, clima. Entrada limitada a 8 s e auto-escala para 854×480; fontes 1080p perdem detalhe na ida e volta. Use Modify em clipes que você gerou em 480p.
Editing Suite — Restyle, Object Manipulation, Sketches to Life
Pós-geração: Restyle (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic); Object Manipulation adiciona/remove/troca elementos; Sketches to Life anima desenho linear; Add Performance cola animação em figura estática. Útil para variações a partir de um clipe.
Prompts que respeitam o modelo
Quatro hábitos sobem qualidade mais rápido que prompts longos.
Use linguagem cinematográfica
Seis presets de câmera embutidos: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Ativam melhor com termos de cinematografia.
| Mais fraco | Mais forte |
|---|---|
| "A city street at night with neon signs and people walking" | "Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing" |
Marque referências explicitamente
Reference Mode degrada com prompt genérico. Amare cada referência a um papel.
"@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel."
Coloque a ação no início
A geração corre sequencialmente na duração. Se o clímax está no fim de 5 s, o modelo pode não terminar. Antecipe a ação.
| Mais fraco | Mais forte |
|---|---|
| "A quiet forest scene with birds, then suddenly a deer leaps across a stream" | "A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches" |
Ritme clipes de 10–15 s numa timeline
Para clipes longos, escreva o timing no prompt.
"Slow zoom into abandoned library (0–5s), dust particles catch light beams (5–10s), book falls from shelf (10–12s), pages flutter (12–15s)."
Quanto custa de verdade
Três cenários reais em créditos OmniArt.
Vídeo de produto TikTok 15 s
| Etapa | Modo | Resolução | Custo |
|---|---|---|---|
| Geração inicial | Text-to-Video | 480p, 10s | 100 |
| Extend | Extend | 480p, 5s | 75 |
| Total (uma revisão) | 175–275 |
Storyboard de marca 3 shots
| Etapa | Modo | Resolução | Custo |
|---|---|---|---|
| Shot 1, 2 refs | Reference, 8s | 720p | 180 |
| Shot 2, mesmas refs | Reference, 8s | 720p | 180 |
| Shot 3, mesmas refs | Reference, 6s | 720p | 135 |
| Correção de luz shot 2 | Modify, 8s | 720p | 180 |
| Total | 675 |
Passe de restyle
| Etapa | Modo | Resolução | Custo |
|---|---|---|---|
| Restyle Anime | Restyle, 8s | 480p | 120 |
Quando escolher outro modelo
Grok Imagine é certo para social curto, sketch-to-life e histórias multi-shot com referência em 480p–720p. É errado quando:
| Necessidade | Melhor escolha |
|---|---|
| 1080p ou mais | V6, BACH, Veo 3 |
| Controle avançado de lente (focal, DOF, aberração) | V6 |
| 16–20 s num passe | Sora 2 |
| Diálogo e música nível produção | Modelo de áudio dedicado + edição |
| Preservar resolução alta em edits | Evite Modify Mode |
Padrões de workflow que entregam
O Grok Imagine paga na OmniArt como camada de iteração, não gerador isolado.
Padrão 1 — gere em outro lugar, refine aqui. Master em V6 ou Sora 2 em resolução maior; Extend, Restyle e Modify no Grok para variações mais baratas.
Padrão 2 — Reference Mode para lock de personagem. Campanha com mesmo personagem em cinco shots: âncora em @Image1, cada shot em Reference Mode. Mais barato que re-rolar Sora 2 por shot.
Warning
Modify Mode escala qualquer entrada acima de 854×480 para 480p antes de processar. Para editar 1080p sem perder resolução, edite antes do upscale ou use outro fluxo.
Começando na OmniArt
O Grok Imagine está no workspace de vídeo da OmniArt com V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 e Seedance 2.0. Mesmo saldo, mesmo upload de referência, mesma gramática de prompt. Comece em Text-to-Video para aprender os presets de câmera, depois Reference Mode quando tiver personagem ou produto para travar.
Combine com o guia BACH para narrativa em maior fidelidade, ou o shortlist image-to-video 2026 para escolher modelo por shot.