guideModelos e insights6 min de leitura

Grok Imagine: guia do criador para o modelo de vídeo da xAI em 2026

Guia prático do Grok Imagine — seis modos de geração, padrões de prompt, custo real em créditos e quando escolhê-lo em vez de V6 ou Sora 2.

Equipe OmniArt5 de mai. de 2026

O Grok Imagine é o modelo de geração de vídeo e áudio da xAI, lançado em janeiro de 2026 e acessível pela OmniArt sem assinatura xAI separada. É produto diferente do chatbot Grok — compartilham nome e nada mais. Este guia cobre para que o Grok Imagine foi feito, os seis modos que importam, padrões de prompt por modo e a conta do que projetos reais custam em créditos.

O que é o Grok Imagine

O Grok Imagine gera vídeo até 720p com áudio nativo em clipes de 1–15 segundos. O truque não é resolução — a 720p ele não disputa fidelidade bruta com Sora 2 ou V6. O truque é a superfície de workflow: seis modos no mesmo weight set para gerar, estender, restilizar e modificar sem trocar de modelo.

Especificação	Valor
Resolução máxima	720p (use V6 para 1080p+)
Duração máxima	15 s por geração
Aspect ratios	16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3
Áudio	Nativo, gerado junto com o vídeo
Custo (480p)	10 créditos por segundo
Custo (720p)	15 créditos por segundo

Os seis modos que valem conhecer

Cada modo diz ao modelo que tipo de entrada está recebendo. Escolher o modo certo é boa parte do prompt engineering.

Text-to-Video

O default. Escreva o prompt, receba o clipe. Melhor para exploração de conceito, mood boards e rascunhos sociais sem imagem de referência. Custo 10–15 créditos/s conforme resolução.

Image-to-Video

Anima um still preservando a composição de entrada. O primeiro frame fica travado na sua imagem. Use para ilustrações, fotografia de produto e mockups onde o frame fonte é inegociável.

Reference Mode — o diferencial

Aceita 1–7 imagens como âncoras visuais sem travar o primeiro frame. Marque com @Image1, @Image2, @Image3 e referencie no prompt. A maioria dos outros modelos ou trava o primeiro frame (image-to-video) ou não aceita referência (text-to-video). Reference Mode fica no meio — caminho mais limpo para consistência de personagem entre shots.

Custo 15 créditos/s em 480p, 22,5 em 720p.

Extend Mode

Acrescenta 2–10 s a um clipe existente. Entrada MP4 entre 2 e 15 s. Saída contínua; cobrança só no trecho acrescentado. Truque cross-model: Extend funciona em vídeos gerados por qualquer modelo no workspace de vídeo OmniArt.

Modify Mode

Edita clipe sem regerar — troca de fundo, luz, cor em objetos, clima. Entrada limitada a 8 s e auto-escala para 854×480; fontes 1080p perdem detalhe na ida e volta. Use Modify em clipes que você gerou em 480p.

Editing Suite — Restyle, Object Manipulation, Sketches to Life

Pós-geração: Restyle (Cyberpunk, Anime, Retro, Origami, Watercolor, Mosaic); Object Manipulation adiciona/remove/troca elementos; Sketches to Life anima desenho linear; Add Performance cola animação em figura estática. Útil para variações a partir de um clipe.

Prompts que respeitam o modelo

Quatro hábitos sobem qualidade mais rápido que prompts longos.

Use linguagem cinematográfica

Seis presets de câmera embutidos: Zoom In, Zoom Out, Dolly Out, Tilt Up, Pan Right, Timelapse. Ativam melhor com termos de cinematografia.

Mais fraco	Mais forte
"A city street at night with neon signs and people walking"	"Dolly forward through a rain-slicked Tokyo alley, neon signs reflecting in puddles, shallow depth of field, a figure with an umbrella enters frame right, cinematic 2.39:1 framing"

Marque referências explicitamente

Reference Mode degrada com prompt genérico. Amare cada referência a um papel.

"@Image1 (the red sports car) drifts around a mountain corner with @Image3 (the sunset sky) in the background while @Image2 (the driver character) grips the steering wheel."

Coloque a ação no início

A geração corre sequencialmente na duração. Se o clímax está no fim de 5 s, o modelo pode não terminar. Antecipe a ação.

Mais fraco	Mais forte
"A quiet forest scene with birds, then suddenly a deer leaps across a stream"	"A deer leaps across a forest stream in golden hour light, camera tracking its arc, birds scatter from nearby branches"

Ritme clipes de 10–15 s numa timeline

Para clipes longos, escreva o timing no prompt.

"Slow zoom into abandoned library (0–5s), dust particles catch light beams (5–10s), book falls from shelf (10–12s), pages flutter (12–15s)."

Quanto custa de verdade

Três cenários reais em créditos OmniArt.

Vídeo de produto TikTok 15 s

Etapa	Modo	Resolução	Custo
Geração inicial	Text-to-Video	480p, 10s	100
Extend	Extend	480p, 5s	75
Total (uma revisão)			175–275

Storyboard de marca 3 shots

Etapa	Modo	Resolução	Custo
Shot 1, 2 refs	Reference, 8s	720p	180
Shot 2, mesmas refs	Reference, 8s	720p	180
Shot 3, mesmas refs	Reference, 6s	720p	135
Correção de luz shot 2	Modify, 8s	720p	180
Total			675

Passe de restyle

Etapa	Modo	Resolução	Custo
Restyle Anime	Restyle, 8s	480p	120

Quando escolher outro modelo

Grok Imagine é certo para social curto, sketch-to-life e histórias multi-shot com referência em 480p–720p. É errado quando:

Necessidade	Melhor escolha
1080p ou mais	V6, BACH, Veo 3
Controle avançado de lente (focal, DOF, aberração)	V6
16–20 s num passe	Sora 2
Diálogo e música nível produção	Modelo de áudio dedicado + edição
Preservar resolução alta em edits	Evite Modify Mode

Padrões de workflow que entregam

O Grok Imagine paga na OmniArt como camada de iteração, não gerador isolado.

Padrão 1 — gere em outro lugar, refine aqui. Master em V6 ou Sora 2 em resolução maior; Extend, Restyle e Modify no Grok para variações mais baratas.

Padrão 2 — Reference Mode para lock de personagem. Campanha com mesmo personagem em cinco shots: âncora em @Image1, cada shot em Reference Mode. Mais barato que re-rolar Sora 2 por shot.

Aviso

Modify Mode escala qualquer entrada acima de 854×480 para 480p antes de processar. Para editar 1080p sem perder resolução, edite antes do upscale ou use outro fluxo.

Começando na OmniArt

O Grok Imagine está no workspace de vídeo da OmniArt com V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 e Seedance 2.0. Mesmo saldo, mesmo upload de referência, mesma gramática de prompt. Comece em Text-to-Video para aprender os presets de câmera, depois Reference Mode quando tiver personagem ou produto para travar.

Combine com o guia BACH para narrativa em maior fidelidade, ou o shortlist image-to-video 2026 para escolher modelo por shot.

Pronto para criar?

Comece a gerar conteúdo incrível com IA

Começar grátis