industryModelos e insights7 min de leitura

Entrada any-to-any do Gemini Omni Flash: o que ela realmente faz

O omni-modal é a promessa central do Gemini Omni Flash, mas a API que foi lançada é mais estreita que o marketing. Veja o que a entrada any-to-any realmente muda no briefing.

Equipe OmniArt
Entrada any-to-any do Gemini Omni Flash: o que ela realmente faz

A palavra que fez o trabalho mais pesado no lançamento do Gemini Omni Flash foi "Omni" — a promessa de um único modelo ao qual você pode entregar texto, imagens, áudio e vídeo de uma só vez, em um único prompt. É uma proposta genuinamente diferente dos modelos de vídeo de entrada única que vieram antes dele, e é o motivo pelo qual o modelo faz jus ao nome. Mas a versão que foi lançada na API para desenvolvedores é mais estreita que o enquadramento do keynote, e essa diferença importa se você está planejando trabalho de verdade em torno dela.

Este artigo separa o que a entrada any-to-any realmente entrega hoje daquilo que ainda é aspiracional — e depois chega ao ponto mais útil, que é como a entrada multimodal muda a forma como você escreve um briefing.

O que "any-to-any" realmente significa

A maioria dos modelos de vídeo aceita um único tipo de direcionamento. Você escreve texto, ou fornece uma única imagem de referência, e o modelo trabalha a partir disso. Entrada any-to-any significa que uma única gramática de prompt aceita várias modalidades juntas e retorna um resultado coerente que respeita todas elas: um frame de referência para o visual, um clipe curto para o movimento e uma direção escrita para todo o resto — combinados, não escolhidos entre si.

A virada é de descrever um plano em palavras para compô-lo a partir de assets. Essa é a capacidade de verdade, e é por isso que "omni-modal" não é puro marketing. A pergunta é quanto disso está ao vivo.

A promessa versus a API que foi lançada

Aqui está a matriz honesta para o preview atual, direto da própria documentação da API:

EntradaStatusObservações
Prompt de textoSuportadoA espinha dorsal de toda geração
Imagem de referênciaSuportadoTexto para vídeo, imagem para vídeo e referência de sujeito
Vídeo de referênciaSuportado, com uma ressalvaReferências com mais de 3 segundos não são totalmente processadas
Referência de áudioNão suportadoVocê não pode enviar um som ou uma voz para o modelo acompanhar
Múltiplas referências de vídeoNão suportadoUm clipe de referência por geração
Prompts fora do inglêsNão testadoO inglês é o único idioma totalmente suportado

Aviso

A lacuna de áudio é a mais provável de atrapalhar um planejamento. O Omni Flash gera uma faixa de áudio por padrão, mas "any-to-any" não inclui entregar a ele uma cama musical, uma narração ou uma gravação de ambiente para sincronizar. O áudio é uma saída que você direciona com palavras, não uma entrada que você fornece.

Então a leitura precisa: any-to-any hoje é texto + imagem + vídeo na entrada, vídeo (com áudio gerado) na saída. A metade "áudio na entrada" da promessa omni-modal foi deliberadamente retida — coerente com os recursos de edição de fala em vídeo e de avatar que o Google segurou no lançamento por razões de segurança. É uma mudança real de capacidade em relação aos modelos de entrada única; ela apenas não é ainda o quadro completo de any-to-any-to-any que o nome sugere.

O que a entrada multimodal muda no briefing

Quando você passa a compor a partir de assets em vez de descrever em prosa, o próprio briefing muda de forma. Três entradas fazem trabalhos diferentes, e a habilidade está em atribuir cada uma àquilo em que ela é melhor:

  • A imagem de referência carrega o visual — o sujeito, a paleta, o enquadramento de que você já gosta.
  • O vídeo de referência carrega o movimento — um movimento de câmera ou uma ação que você quer ecoada.
  • O texto carrega a intenção e tudo o que os assets ainda não mostram — a atmosfera, as mudanças, aquilo que não está em nenhuma das referências.

O efeito prático é que você deixa de tentar traduzir uma imagem em adjetivos. Em vez de escrever "um close-up quente de profundidade rasa com um push in lento", você fornece o frame que já tem essa aparência e o clipe que já se move assim, e gasta as suas palavras no que é novo. Para qualquer um que já lutou para descrever uma estética específica em texto, esse é o destravamento do fluxo de trabalho.

Os quatro modos de tarefa, e como eles se combinam

A API expõe quatro tipos de task, e eles se encaixam de forma limpa na ideia de compor a partir de assets:

  1. text_to_video — descrição pura, sem assets. O recurso reserva para quando você está começando do zero.
  2. image_to_video — anima uma imagem estática. O ponto de entrada mais comum: uma imagem forte se torna o primeiro frame do movimento.
  3. reference_to_video — carrega um sujeito ou estilo de uma referência para uma nova geração.
  4. edit — o modo conversacional e com estado que revisa o clipe anterior preservando o que você não alterou.

O fluxo pretendido os encadeia: gere ou anime uma base com um dos três primeiros, depois passe para o edit e refine de forma conversacional. É a mesma forma do próprio emparelhamento do Nano Banana 2 Lite com o Omni Flash do Google — editar uma imagem estática e depois animá-la — estendido ao longo dos turnos.

A nuance do áudio, explicitada

Como o áudio não pode ser fornecido, o sound design vira uma tarefa de escrita. O modelo produz diálogo, efeitos e ambiência com base no que o seu prompt descreve — "gentle rain on a window, no music" ou "a single soft click, then room tone". Você obtém um controle significativo, mas é um controle descritivo, e isso significa duas coisas para o planejamento:

  • Se o seu projeto precisa que o vídeo gerado combine com uma faixa existente — uma música licenciada, uma vinheta de marca, uma narração gravada — essa sincronização acontece em um passo de áudio separado, e não dentro do Omni Flash.
  • Se você só precisa de um som original e adequado, descrevê-lo bem no prompt já o leva até lá sem nenhum upload.

Onde o OmniArt se posiciona hoje

O fluxo de compor a partir de assets não é algo que você precise esperar o Omni Flash para experimentar — ele já roda nos modelos ao vivo no workspace de vídeo do OmniArt, e em um aspecto eles vão além.

O Seedance 2.0, disponível no OmniArt agora, foi construído em torno exatamente dessa ideia: ele aceita até nove imagens, três clipes de vídeo e — notavelmente — três arquivos de áudio em um único prompt, cada um vinculado a um papel com a sintaxe @image1 / @video1 / @audio1. Isso inclui a entrada de referência de áudio que o Omni Flash retém. Se o seu briefing depende de entregar ao modelo um som específico para trabalhar, esse caminho existe hoje.

E a direção da tendência é clara em todo o campo: o Seedance 2.5, anunciado em junho, leva a mesma arquitetura de referência a até 50 entradas multimodais de uma só vez. A entrada any-to-any não é a história de um único modelo — é para onde o vídeo com IA dirigido está indo. O Omni Flash deu nome à ideia; o workspace já permite que você a pratique.

Abra o workspace de vídeo no OmniArt, monte o seu conjunto de referências e deixe os assets carregarem o visual e o movimento enquanto as suas palavras carregam a intenção. Esse é o briefing any-to-any, disponível agora.

Pronto para criar?

Comece a gerar conteúdo incrível com IA

Começar grátis