guideTutoriais e guias práticos12 min de leitura

8 prompts para Grok Imagine que realmente funcionam

Oito prompts prontos para copiar no Grok Imagine 1.5 para imagem e vídeo, construídos com o estilo de linguagem natural do FLUX.1 e a estrutura Sujeito + Ação + Câmera + Estilo + Áudio. O que cada prompt produz e por que funciona, dentro do OmniArt.

Equipe OmniArt9 de jun. de 2026

O Grok Imagine 1.5 atualizou a base de imagens para o FLUX.1 da Black Forest Labs, e essa mudança tem uma implicação concreta na forma como você escreve prompts: o modelo responde à descrição em linguagem natural da forma como um fotógrafo lê um briefing, e não como os modelos mais antigos interpretavam listas de palavras-chave. Os oito prompts abaixo estão prontos para copiar — cole-os no espaço de trabalho Grok Imagine do OmniArt, ajuste os detalhes e gere. Cada card inclui o texto exato do prompt, o que ele produz e uma nota de criação sobre por que a estrutura funciona.

Para teoria geral de prompts em todos os modelos OmniArt, consulte como escrever melhores prompts. Para o tratamento aprofundado dos seis modos de geração do Grok Imagine e os cálculos de custo, veja o guia do criador Grok Imagine. Este artigo é especificamente sobre o Grok Imagine 1.5 — o lançamento com FLUX.1 — e a técnica de prompt que ele recompensa.

O que o Grok Imagine 1.5 mudou nos prompts

O modelo base FLUX.1 é treinado de forma diferente das arquiteturas de texto para imagem mais antigas. Ele interpreta bem prosa conectada e tende a responder pouco a pilhas de palavras-chave puras. Cinco hábitos elevam a qualidade de forma mais confiável:

Linguagem natural em vez de listas de palavras-chave. Frases completas superam adjetivos separados por vírgulas. "Uma rua no blue hour, iluminada pelo brilho de uma placa de conveniência" bate "rua, noite, neon, cinematográfico, 4K."
Referências específicas em vez de adjetivos vagos. "Filmado em Fujifilm XT4, 23mm f/2" diz mais ao modelo do que "foto de alta qualidade." Nomes de equipamentos e estoques de filme carregam peso real no espaço latente.
Palavras de cor exatas em vez de "colorido." "Azul elétrico e rosa quente" produz uma paleta deliberada. "Colorido" produz ruído médio.
Hora exata em vez de "hora dourada." "Final de outubro, 17h45, sol a 6° acima do horizonte" diz ao modelo o ângulo e a temperatura da luz com precisão. "Hora dourada" é ambíguo entre estações e latitudes.
Estrutura de vídeo: Sujeito + Ação + Câmera + Estilo + Áudio. Coloque o sujeito principal e a ação nas primeiras 20–30 palavras. Um único foco de estilo supera uma mistura. Itere progressivamente — mude uma variável por geração até o resultado se firmar e depois avance.

Para uma análise completa do vocabulário cinematográfico que se transfere para vídeo, o guia de prompts para vídeo de IA cinematográfico cobre escolha de lente, movimentos de câmera motivados e linguagem de iluminação em profundidade.

Os 8 prompts

1. Foto de produto cinematográfica (imagem)

35mm product photography, shot on Fujifilm XT4. A matte black mechanical wristwatch resting on a slab of raw concrete, 
late October afternoon light coming in low from camera left at roughly 20°, casting a long shadow across the concrete 
face. Shallow depth of field, background falling completely soft. Color palette: warm amber highlights, cool blue-grey 
shadow fill. No props, no reflections except the concrete surface itself.

O que produz: uma still limpa e artisticamente dirigida que lê como fotografia profissional de produto em vez de output de IA.

Por que funciona: a referência à Fujifilm XT4 ancora a ciência das cores e a renderização do sensor em um look real específico. O ângulo da luz é especificado numericamente, o que evita que o modelo use iluminação difusa overhead por padrão. Manter a paleta em duas cores — destaques âmbar quente, preenchimento de sombra azul-cinza frio — evita que o modelo introduza uma terceira tonalidade concorrente.

2. Close de personagem com áudio (vídeo)

Medium close-up of a young woman with short silver hair and a worn leather jacket, inside a neon-lit record shop at 
3 am. She looks directly into camera and says: "Every city has one song. I'm still looking for mine." Natural lip 
sync. Camera holds completely still. Light source: one pink neon tube overhead, one cyan neon sign spilling from 
camera right. Atmosphere: quiet, a little melancholic, not cinematic drama. Ambient audio: low vinyl static underneath 
the dialogue. 8 seconds.

O que produz: um momento de personagem com áudio nativo do Grok Imagine 1.5 — o modelo gera diálogo, sincronização labial e som ambiente em uma única passagem de inferência.

Por que funciona: a linha de diálogo é curta o suficiente para sincronização labial limpa dentro de 8 segundos. Duas fontes de luz neon separadas e nomeadas (rosa no topo, ciano à direita) dão ao modelo um mapa de luz claro e evitam a média genérica de "cidade neon." "Não é drama cinematográfico" é uma restrição negativa que guia o humor com mais precisão do que um adjetivo positivo faria.

Dica

Mantenha o diálogo falado em uma ou duas frases curtas em clipes com menos de 10 segundos. Linhas mais longas ocupam a duração disponível e o modelo pode acelerar a entrega ou cortar o áudio cedo.

3. Ambiente atmosférico — clipe de ambience (vídeo)

Wide establishing shot of a fog-filled pine forest in southern Norway, early November, 7 am. No people, no animals. 
Soft diffused dawn light filtering through the canopy, pale grey-white, casting almost no shadow. Slow imperceptible 
push forward, as if the camera is drifting on breath. Audio: deep forest ambience — distant water, occasional bird, 
near-silence underneath. No music. 12 seconds.

O que produz: um clipe de ambience para definir humor, ideal como filmagem de fundo, material de transição ou cena de abertura.

Por que funciona: "início de novembro, 7h" é mais preciso que "manhã com névoa." O push é descrito como "imperceptível" e "derivando sobre a respiração," o que comunica o ritmo com mais precisão do que "push lento para frente." Pedir ausência de música evita que o áudio use trilha sonora por padrão — o modelo gera ambience autêntico no estilo de gravação de campo.

9:16 vertical. A pair of electric blue running shoes drops into frame from the top, landing on a wet reflective black 
studio floor. High-speed impact, tiny water spray, shoes bounce once and settle. Immediate cut to product floating 
at centre frame, slow rotation 360°. Fast rhythm: first motion 0–2s, rotation 2–8s. Hard direct light from above, 
electric blue accent light from below floor (subtle). No dialogue. Audio: sharp impact sound on drop, then a clean 
single synthesizer tone during rotation. 8 seconds.

O que produz: um clipe social 9:16 impactante feito para TikTok, Reels ou Shorts — revelação de produto com corte rápido e áudio nativo.

Por que funciona: especificar 9:16 no início define a proporção antes de tudo mais no prompt. A linha do tempo é escrita explicitamente ("0–2s / 2–8s"), o que ajuda o modelo a marcar os dois beats corretamente em vez de mesclá-los em um único movimento. Nomear os eventos de áudio específicos (som de impacto, tom de sintetizador) produz design de som mais intencional do que "adicione efeitos sonoros."

Aviso

Clipes do Grok Imagine 1.5 chegam a 15 segundos. Para conteúdo social mantenha os clipes em no máximo 8–10 segundos — o movimento do modelo é mais limpo nessa faixa e as janelas de atenção da plataforma social são curtas. A 720p, um clipe de 8 segundos custa 120 créditos no OmniArt.

5. Ilustração estilizada (imagem)

Risograph print illustration of a small coastal Japanese fishing village at dusk, mid-December. Two ink colors only: 
deep indigo and warm persimmon orange. Flat graphic shapes, no gradients. Fishing boats pulled up on shore, a single 
wooden dock, lantern light in two window rectangles. Composition: low horizon line, large sky area, boats and dock in 
lower third. The print has slight ink misregistration — indigo shifted 2px left from the orange layer. Texture: 
visible paper grain throughout.

O que produz: uma ilustração gráfica com cores limitadas que parece um processo de impressão real em vez de arte digital genérica.

Por que funciona: nomear a técnica de impressão (Risograph) e suas restrições específicas (duas cores de tinta, formas planas, sem gradientes, desalinhamento de tinta) dá ao modelo um briefing técnico completo. "Desalinhamento de tinta" é o tipo de detalhe de processo físico que ancora o output em uma estética do mundo real — é o equivalente FLUX.1 de nomear um estoque de filme. Sem isso, o modelo tende a adicionar gradientes ou misturar cores.

6. Movimento de câmera dinâmico — drone com pull-back (vídeo)

Aerial drone footage. Extreme close-up on the face of a compass resting on a weathered wooden ship's deck, late 
afternoon November light, warm golden horizontal rays from camera left. Slow pull-back revealing the full deck, 
then the ship's hull, then open grey Atlantic ocean horizon. Pull-back runs the full 15 seconds — begin on compass, 
end with ocean filling 80% of the frame. Camera elevation stays constant, no tilt. Real drone color science: flat 
LOG-style color, slight lens vignette. Audio: wind increasing in volume as ocean fills frame.

O que produz: um plano de revelação sustentado de 15 segundos — a duração máxima do clipe do modelo — construído em torno de um único movimento de câmera motivado.

Por que funciona: este prompt usa a duração total de 15 segundos para um único movimento contínuo, que é a forma mais confiável de obter um resultado limpo nessa duração. O pull-back é restrito a elevação constante (sem inclinação), o que evita que o modelo improvise um segundo eixo de câmera e crie movimento instável. "Cor estilo LOG, leve vignette de lente" codifica um look de câmera real sem exigir nomes de equipamento específicos.

7. Moda estilizada — retrato com estoque de filme (imagem)

Expired Kodak Portra 400 film scan. Portrait of a woman in her mid-thirties, strong afternoon window light from 
camera right, half of her face in deep shadow. She is wearing a deep forest green linen blazer, no visible jewellery. 
Expression is neutral, looking slightly off-camera left. Grain heavy and warm, slight halation around the window 
highlight, greens shifted slightly toward yellow-olive. Tight crop: from collarbone to just above top of head. 
Aspect ratio 4:5.

O que produz: um retrato de fotografia analógica com renderização de cor vintage precisa — grão autêntico, halação e desvios de cor de filme vencido.

Por que funciona: "Kodak Portra 400 vencido" é uma das referências de estilo de frase única mais fortes no espaço latente de imagem — carrega um conjunto completo de expectativas tonais. Especificar o desvio de cor ("verdes levemente deslocados para amarelo-oliva") evita grão vintage genérico e orienta a corrupção exata de paleta associada a filme vencido. Corte apertado e uma proporção específica (4:5) produzem um retrato que parece uma impressão fotográfica real.

8. Ambiente imersivo — chuva (vídeo)

Ground-level POV inside a glass bus shelter, heavy urban rain, Tokyo residential street, late June 22:00. Camera 
holds completely still. Rain streaks down the glass panels in foreground, streetlights smear into vertical bokeh 
streaks behind the wet glass. A cyclist passes in the distance — silhouette only, visible for about 2 seconds in 
mid-clip. No camera movement. Audio: heavy rain on glass, distant car tyre hiss, one distant motorbike engine 
fading right-to-left. No music. 10 seconds.

O que produz: um clipe ambiental imersivo de ponto de vista único — forte como plano de abertura ou como peça de humor autônoma.

Por que funciona: "final de junho, 22h00" especifica a estação exata, a sensação de temperatura (chuva quente de verão) e o nível de escuridão. O ciclista que passa é plantado como um evento específico em um momento específico ("cerca de 2 segundos no meio do clipe"), o que dá ao modelo uma âncora narrativa sem pedir ação complexa de personagem. O áudio é dado em três camadas separadas (chuva no vidro, farfalhar de pneu, moto), o que tende a produzir design de som mais cuidadoso do que uma única instrução de "chuva urbana ambiente."

Rodando no OmniArt

Todos os oito prompts rodam no Grok Imagine 1.5 dentro do espaço de criação do OmniArt — sem necessidade de assinatura xAI separada. Os prompts de imagem (1, 5, 7) vão para o espaço de imagem; os prompts de vídeo (2, 3, 4, 6, 8) vão para o espaço de vídeo no Grok Imagine.

Algumas notas práticas para execuções no OmniArt:

Comece em 480p para iteração. Em 480p, o vídeo custa 10 créditos por segundo. Quando a estrutura estiver correta, suba para 720p (15 créditos por segundo) para o take final.
Use o Modo Estender para aumentar a duração. O clipe de ambiente (prompt 3) e o drone com pull-back (prompt 6) podem ser estendidos em até 15 segundos adicionais usando o Modo Estender do Grok Imagine — o mesmo modelo, cobrado apenas pela parte acrescentada.
Use o Modo Modificar para correções pontuais. Se a iluminação em um resultado estiver quase certa mas um elemento estiver errado, o Modo Modificar permite descrever a mudança em texto sem regenerar o clipe completo. Mantenha os clipes de origem em 480p antes de passar para Modificar — o modo limita o input em 854×480.
Consistência de personagem entre planos: se você está gerando múltiplos planos do mesmo personagem (estilo do prompt 2), use o Modo Referência com um headshot como @Image1 e reafirme a descrição do personagem em cada novo prompt. O Modo Referência do Grok Imagine 1.5 é o caminho mais direto para consistência sem depender de um modelo ajustado.

Para uma análise completa de todos os seis modos de geração do Grok Imagine, cenários de custo e quando mudar para um modelo diferente, veja o guia completo do Grok Imagine. Para o vocabulário de cinematografia mais amplo que se transfere para qualquer prompt de vídeo, o guia de prompts para vídeo de IA cinematográfico vale marcar ao lado deste.

Pronto para criar?

Comece a gerar conteúdo incrível com IA

Começar grátis