guideTutoriais e guias práticos8 min de leitura

Como criar prompts no Gemini Omni Flash para vídeos de 10 segundos

O Gemini Omni Flash tem uma superfície de prompt incomum: sem parâmetro negativo, duas proporções de tela, apenas em inglês e dois modos distintos de prompt. Veja como escrever bem em ambos.

Equipe OmniArt
Como criar prompts no Gemini Omni Flash para vídeos de 10 segundos

A maioria dos guias de prompt para vídeo com IA ensina você a escrever uma coisa só: um parágrafo rico e detalhado que você entrega ao modelo uma única vez. O Gemini Omni Flash quebra essa premissa. Sua API para desenvolvedores (no ar desde 30 de junho) foi construída em torno de dois atos de prompt diferentes — a primeira geração e, depois, uma conversa contínua de edições que reformulam o mesmo clipe a cada passo. Escreva para um e ignore o outro e você deixa a maior parte do modelo de lado.

A superfície de prompt do Omni Flash também é incomum no que remove. Não há campo de prompt negativo, nem controle de temperatura, nem instrução de sistema, e apenas duas proporções de tela. Essas não são lacunas para contornar às cegas — cada uma muda a forma como você deve formular um prompt. Este guia cobre os dois modos e as restrições que os moldam.

Nota

Em 1 de julho de 2026, o Gemini Omni Flash está disponível pelo Google AI Studio, pela Gemini API, pelo app Gemini e pelo Google Flow — ainda não dentro do workspace do OmniArt. As seções abaixo descrevem como criar prompts diretamente nas próprias ferramentas do Google; a seção final mapeia quais hábitos se transferem para os modelos de vídeo que já estão ao vivo no OmniArt hoje.

Dois modos de prompt, não um

Toda sessão do Omni Flash tem dois tipos de prompt, e cada um recompensa uma escrita diferente.

O prompt de primeira geração é um briefing completo para um único momento de 10 segundos: sujeito, movimento, câmera, luz, som, estilo. Ele se comporta como qualquer bom prompt de texto para vídeo ou de imagem para vídeo — coloque o detalhe logo no início, seja específico, descreva o plano inteiro de uma vez.

A instrução de edição conversacional é o oposto. Ela é curta, nomeia exatamente uma alteração e assume que o modelo já mantém o clipe anterior em contexto. "Deixe a iluminação em golden hour." "Troque o sedã por uma picape." O modelo aplica a mudança preservando tudo o que você não mencionou — por meio do previous_interaction_id, que carrega o estado da sessão ao longo de até três edições sequenciais pela Interactions API. Amontoe três mudanças em uma única instrução de edição e você perde a precisão que faz o modo valer a pena.

O modelo mental: componha no primeiro prompt, dirija nas mensagens seguintes. Consiga um clipe base sólido e depois refine-o do jeito que você orientaria um diretor no meio da filmagem — uma nota de cada vez.

As restrições da API que moldam a sua formulação

A lista de parâmetros do Omni Flash é curta por design. Cada omissão tem uma consequência para o prompt:

RestriçãoO que significa para o prompt
Sem campo de prompt negativoFormule as exclusões dentro do próprio prompt — "uma rua vazia, sem pedestres, sem trânsito" em vez de uma lista negativa separada
Sem temperature / top_p / instrução de sistemaVocê não pode ajustar a variância nem definir uma regra de estilo persistente — incorpore tom e estilo no texto do prompt toda vez
Proporção de tela: apenas 9:16 ou 16:9Escolha a orientação de antemão; não há opção quadrada nem cinematográfica ultrawide, então enquadre para vertical ou horizontal desde a primeira palavra
Áudio descrito, nunca enviadoVocê não pode entregar uma faixa para ele acompanhar — você descreve em palavras o som que quer (veja abaixo)
Inglês totalmente suportado; outros idiomas não testadosEscreva os prompts em inglês para obter resultados previsíveis
Limite rígido de 10 segundosUma ação clara por geração — não uma lista de planos

Aviso

O Omni Flash não tem envio de referência de áudio. Você não pode dar a ele uma cama musical nem uma amostra de voz para sincronizar. Ele gera uma faixa de áudio por padrão, e o seu único controle são as palavras do prompt — então o sound design precisa ser escrito, não anexado.

Um template para a primeira geração

Como 10 segundos comportam um único momento, os primeiros prompts mais fortes descrevem um instante contínuo com cada camada especificada. Seis campos cobrem quase qualquer plano:

  1. Sujeito — quem ou o que está em cena, descrito de forma concreta
  2. Movimento — a única ação que se desenrola ao longo do clipe
  3. Câmera — um único movimento, não uma sequência ("push in lento", "plano geral fixo")
  4. Iluminação — direção, qualidade, hora do dia
  5. Sound design — o áudio que você quer gerado, em palavras
  6. Estilo — paleta, época, referência de filme, textura

Um exemplo trabalhado:

"A ceramic pour-over coffee dripper on a pale oak counter, steam rising as dark coffee streams into the glass carafe below. Slow push in on the drip. Soft morning light from a window camera-left, warm and diffused. Sound: gentle water trickle, distant kitchen ambience, no music. Muted editorial palette, shallow depth of field, shot on a fast prime lens."

Repare que as exclusões vivem dentro da frase ("no music"), a câmera é um único movimento e o som está explicitado. Essa é toda a disciplina.

Edição conversacional: o vocabulário que funciona

Depois que você tem um clipe base, as edições são onde o Omni Flash se destaca em relação a fluxos de gerar-e-descartar. Mantenha cada instrução com uma única intenção e apoie-se em um vocabulário de verbos consistente que o modelo lê com clareza:

  • Reiluminar — "make it golden hour", "add a cool rim light from behind"
  • Substituir — "swap the coffee dripper for a French press"
  • Reestilizar — "make it feel like 1970s film stock"
  • Recolorir — "change the mug to matte black"
  • Retemporizar — "slow the pour down", "let the steam linger longer"

Duas regras mantêm a linha coerente. Uma mudança por turno — o modelo preserva o que você não menciona, então uma edição de nota única é ao mesmo tempo mais previsível e mais fácil de desfazer com um novo prompt. E construa sobre a linguagem do turno anterior — reutilize os substantivos que você estabeleceu ("the mug", "the pour") para que o modelo se ancore nos mesmos elementos em vez de reinferir a cena.

Dica

A cadeia de três edições é um orçamento, não uma sugestão. Planeje o prompt base para que ele precise do menor número possível de mensagens seguintes — uma primeira geração forte deixa os seus turnos de edição para mudanças criativas de verdade, não para consertar coisas que o primeiro prompt poderia ter especificado.

Contornando os limites atuais

Alguns limites não são solucionáveis por prompt, e vale a pena escrever tendo-os em mente em vez de lutar contra eles:

  • Limite de 10 segundos. Não há extensão de cena na API, então não escreva prompts que impliquem um arco mais longo. Projete um único momento que se sustente sozinho.
  • Consistência de personagem entre mudanças de cena é um ponto fraco reconhecido. Se a semelhança importa, mantenha as edições dentro da mesma cena em vez de pedir ao modelo para realocar um personagem para um novo cenário.
  • Referências de vídeo com mais de 3 segundos não são totalmente processadas. Mantenha qualquer clipe de referência curto e direto ao ponto.
  • Sem referência de múltiplos vídeos e sem edição de voz — ambos não são suportados, então planeje esses passos para uma ferramenta separada, e não para o prompt.

Nenhum desses pontos desqualifica uma ferramenta de iteração rápida em formato curto. Eles apenas significam que o Omni Flash recompensa prompts delimitados ao que ele faz bem: um único momento enxuto, refinado de forma conversacional.

O que se transfere para o OmniArt hoje

O Omni Flash ainda não está no workspace do OmniArt, mas quase todo hábito acima se transfere para os modelos de vídeo que já estão — porque a disciplina de base (um único momento claro, especificidade em vez de sopa de palavras-chave, som escrito dentro do prompt) independe do modelo.

  • Geração guiada por referência mapeia diretamente para o Seedance 2.0, ao vivo no OmniArt, que aceita até nove imagens, três vídeos e três arquivos de áudio vinculados a papéis com a sintaxe @image1 / @video1 — a ideia de "compor a partir de assets", com mais entradas do que o Omni Flash oferece.
  • Linguagem de câmera cinematográfica mapeia para o Veo 3.1, que interpreta verbos de movimento como "drift", "glide" e "dolly in" com contenção.
  • O template de seis campos (sujeito, movimento, câmera, luz, som, estilo) é o mesmo esqueleto que produz resultados limpos em todos os modelos de vídeo do workspace.

Abra o workspace de vídeo no OmniArt, escolha o modelo que se encaixa no plano e escreva o primeiro prompt como um único momento completo. Quando o Omni Flash chegar, o fluxo de trabalho de dois modos acima é a parte que você vai adicionar — a arte de criar prompts já é a mesma.

Pronto para criar?

Comece a gerar conteúdo incrível com IA

Começar grátis