Grok Imagine 1.5 vs 1.0: o que os +52 Elo realmente mudam
O Grok Imagine 1.5 da xAI subiu +52 Elo em relação ao 1.0 e chegou ao 1º lugar no Image-to-Video Arena. Analisamos a diferença em quatro mudanças que os criadores sentem na prática: áudio nativo, clipes de 15 segundos, consistência facial e Extend from Frame, com comparações reais no OmniArt.

O Grok Imagine 1.5 chegou como atualização de pré-visualização e fez diferença: +52 Elo em relação ao 1.0, chegando ao topo do Image-to-Video Arena à frente do Seedance 2.0, HappyHorse 1.0 e Google Veo nos testes cegos com usuários. Um salto de 52 pontos em um leaderboard maduro é um sinal relevante — isso equivale a aproximadamente 57% de taxa de vitória do 1.5 em confrontos diretos contra o 1.0.
O número é o título. O que importa para o trabalho de produção é quais mudanças específicas impulsionaram isso. Temos rodado o 1.5 ao lado do 1.0 no espaço de trabalho de vídeo do OmniArt, e o ganho se explica claramente por quatro coisas que os criadores sentem imediatamente. Nenhuma delas é sutil.
Se você é novo no Grok Imagine, comece pelo guia introdutório — ele cobre os seis modos de geração, padrões de prompt e o cálculo de créditos em detalhes. Este artigo assume que você já produziu pelo menos alguns clipes com o 1.0 e quer saber o que vale a pena refazer.
Comparação rápida de especificações: 1.0 vs 1.5
| Especificação | Grok Imagine 1.0 | Grok Imagine 1.5 |
|---|---|---|
| Resolução máxima | 720p | 720p |
| Duração máxima | 10 segundos | 15 segundos |
| Proporções de tela | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 | 16:9, 4:3, 1:1, 9:16, 3:4, 3:2, 2:3 |
| Áudio | Nativo, geração conjunta | Nativo, geração conjunta — melhorado |
| Consistência facial | Nível básico | Visivelmente melhorada |
| Extend from Frame | Continuação pelo último frame | Seleção explícita de frame, continuidade melhorada |
| Base de geração de imagem | FLUX.1 (Black Forest Labs) | FLUX.1 (Black Forest Labs) |
| Custo (480p) | 10 créditos/seg | 10 créditos/seg |
| Custo (720p) | 15 créditos/seg | 15 créditos/seg |
| Posição no Arena | Várias posições abaixo do 1º | 1º lugar no Image-to-Video Arena |
O limite de resolução e o preço em créditos não mudaram. Os ganhos estão no que o modelo faz dentro dessas restrições.
Mudança 1: o áudio nativo soa como uma passagem única
O Grok Imagine gera áudio desde a versão 1.0 — diálogo, sincronização labial, efeitos sonoros e música ambiente, tudo construído a partir de tokens de vídeo em uma única inferência, sem um modelo de áudio separado costurado depois. Na prática, o áudio do 1.0 tinha dois problemas recorrentes: o timing mecânico no diálogo (palavras chegavam em intervalos uniformes, pausando em limites gramaticais e não em pontos naturais de respiração) e a ambientação plana (cena de café com um murmúrio de fundo indiferenciado e sem variação espacial).
O 1.5 resolve ambos. A mesma arquitetura de passagem única agora produz entonação em nível de frase — construções curtas e diretas chegam com entonação descendente, enquanto o discurso explicativo mais longo tem uma subida audível no meio da frase antes da resolução. A ambientação parece em camadas: uma cena de rua gera tráfego ao fundo, passos próximos e o som abafado de uma porta de loja atrás do sujeito. Esses sons não são pós-processados; são gerados com a mesma lógica sequencial frame a frame que o motor Aurora usa para o movimento, onde cada frame informa o próximo e o ambiente acústico acompanha a trajetória visual.
Prompt no 1.0: "Um barista explica o processo de preparo para um cliente do outro lado do balcão, fundo de cafeteria, iluminação quente."
- Resultado no 1.0: o diálogo chegava em rajadas metrônomicas, a máquina de espresso ambiente rodava em um nível constante do início ao fim.
- Resultado no 1.5: a explicação do barista tem pausas naturais no meio das frases, a máquina de espresso cresce quando outro pedido começa, a resposta murmurada do cliente é mais baixa e posicionada espacialmente mais longe do eixo do microfone.
A diferença é mais clara em clipes com muito diálogo. Se você tem roteado vídeos do Grok 1.0 por um modelo de áudio separado para trabalhos de voz, o 1.5 fecha a maior parte dessa lacuna de forma nativa.
Mudança 2: 10 segundos vira 15 segundos
O Grok Imagine 1.0 limitava os clipes a 10 segundos. O 1.5 eleva isso para 15 segundos, com qualquer duração inteira de 1 a 15 suportada. Os cinco segundos extras parecem menores. Na prática, é a diferença entre um clipe para redes sociais que precisa de uma extensão e outro que sai pronto na primeira geração.
O cálculo de créditos muda de forma significativa para os casos de uso padrão:
| Caso de uso | 1.0 (máx. 10s + extensão para 15s) | 1.5 (15s nativo) |
|---|---|---|
| 15s TikTok, 480p | 100 (10s) + 75 (5s estender) = 175 | 150 |
| 15s TikTok, 720p | 150 (10s) + 112,5 (5s estender) = 262,5 | 225 |
| 10s produto, 720p | 150 | 150 (sem alteração) |
Para o formato social mais comum — um clipe de 15 segundos — o 1.5 custa cerca de 14% menos em 480p e 14% menos em 720p comparado à abordagem de gerar e estender do 1.0, e você ainda evita o artefato de costura que às vezes aparece no ponto de junção da extensão.
O modo de extensão continua disponível no 1.5 para ir além dos 15 segundos, mas você só paga os custos de extensão em imagens que realmente precisam de mais tempo, não porque a geração base forçou um corte.
Mudança 3: precisão facial e consistência de personagem
Esta é a mudança mais difícil de quantificar e a mais consistentemente citada no feedback da comunidade. O Grok Imagine 1.0 conseguia gerar um rosto convincente no frame de abertura e perdê-lo — distorcendo características entre frames, especialmente durante viradas de cabeça, transições de iluminação ou movimento rápido. Personagens introduzidos pelo Modo de Referência sofriam desvio nas proporções faciais ao longo de clipes mais longos.
O 1.5 resolve isso no nível da arquitetura. A geração de frames sequenciais do motor Aurora — onde cada frame é informado pelo anterior — agora preserva os marcos faciais de forma mais estável durante rotações e mudanças de iluminação. O padrão de feedback da comunidade é consistente: viradas de cabeça que antes produziam distorções inquietantes agora se completam de forma limpa na velocidade normal de reprodução.
Antes/depois com um único prompt do Modo de Referência: "[@Image1] caminha em direção à câmera por um beco coberto de névoa, rosto claramente visível, vira levemente para a direita aos 8 segundos, luz de rua quente vinda de cima."
- 1.0: o sujeito manteve identidade consistente durante a caminhada, depois a virada para a direita produziu uma mudança notável na largura do maxilar no frame do meio da rotação, que se corrigiu na resolução.
- 1.5: a mesma virada se completa sem o artefato de correção. As proporções do maxilar e dos ossos da bochecha se mantêm durante toda a rotação.
Isso importa mais para qualquer caso de uso onde o rosto de um personagem é o principal sujeito — conteúdo de talking head, narrativas com personagens, demonstrações de produto com um porta-voz, e qualquer clipe usando o Modo de Referência para fixar uma identidade consistente em múltiplos planos.
Dica
A consistência do personagem se acumula no Modo de Extensão. No 1.5, um clipe estendido preserva a estabilidade dos marcos faciais estabelecida na geração original. A costura onde a extensão se une é menos detectável do que no 1.0 porque ambos os segmentos agora compartilham a mesma linha de base de geometria facial.
Mudança 4: Extend from Frame — encadeie clipes até o tamanho de um curta
O Modo de Extensão no 1.0 adicionava frames ao final de um clipe, mas a superfície de controle era limitada: você entregava o clipe ao modelo e pedia para ele continuar. No 1.5, o Extend from Frame adiciona seleção explícita de frame — você escolhe o frame final específico do qual quer continuar, e o modelo retoma a partir desse exato estado visual: mesma posição do sujeito, mesma direção de iluminação, mesma trajetória de câmera, mesmas condições atmosféricas.
A diferença importa quando uma geração produz uma abertura e um meio corretos, mas os frames finais se desviam da sua intenção. No 1.0, um frame final imperfeito significava aceitá-lo como semente para a extensão ou recriar o clipe inteiro. No 1.5, você pode selecionar um frame mais cedo na geração — o momento de composição mais limpo que você realmente queria continuar — e estender a partir daí.
O fluxo de trabalho prático para produções mais longas:
- Gere um segmento de abertura de 15 segundos. Revise, identifique o melhor frame de fechamento.
- Use o Extend from Frame, selecione esse frame, gere os próximos 15 segundos.
- Repita até atingir a duração necessária.
Uma cadeia de três segmentos de 15 segundos produz 45 segundos de imagens com personagem, iluminação e estado de câmera preservados nas junções. O suficiente para uma demonstração de produto, um anúncio curto ou uma sequência de introdução narrativa — de um modelo que cobra por segundo a 10–15 créditos.
Nota
O Modo de Extensão no OmniArt funciona em múltiplos modelos, não apenas no Grok Imagine. Você pode gerar a abertura com um modelo diferente e usar o Extend from Frame do Grok Imagine 1.5 para continuar, trazendo as melhorias de consistência de personagem para imagens originadas em outro lugar.
Para que os +52 Elo realmente mapeiam
A diferença no Arena se divide nessas quatro mudanças, ponderadas pela frequência com que cada uma aparece na produção do dia a dia:
| Mudança | Impacto no Elo | Onde você sente |
|---|---|---|
| Naturalidade do áudio | Alto | Qualquer clipe com diálogo ou ambientação em camadas |
| Duração nativa de 15s | Moderado | Formatos sociais de 15 segundos; fluxos dependentes de extensão |
| Consistência facial | Alto | Talking heads, trabalhos de personagem no Modo de Referência, viradas de cabeça |
| Extend from Frame | Moderado | Produções multissegmento, clipes encadeados |
O Arena testa especificamente de imagem para vídeo — um still de entrada é animado. Nesse contexto, consistência facial e naturalidade do áudio são as duas qualidades que os votantes cegos percebem mais, o que explica de onde veio a maior parte do ganho de Elo. Duração e Extend from Frame importam mais para usuários experientes construindo projetos de múltiplos planos do que para o votante do teste cego assistindo a um clipe de 5 segundos.
Você deve recriar seus projetos do 1.0?
A versão curta: sim para qualquer projeto onde o rosto era o principal sujeito, e sim para tudo que você construiu com o padrão de gerar-e-estender para atingir 15 segundos. Para todo o resto, a decisão é específica do projeto.
Recrie agora se:
- Você produziu clipes de talking head ou focados em personagem no 1.0 e percebeu desvio facial no meio do clipe. As mesmas entradas do Modo de Referência devem produzir resultados visivelmente mais limpos no 1.5.
- Você construiu clipes de 15 segundos como 10s + 5s de extensão e teve artefatos de costura. A geração nativa de 15 segundos do 1.5 elimina o ponto de junção.
- O áudio era o último obstáculo em um clipe que estava quase pronto. A entonação natural e a ambientação em camadas do 1.5 resolvem as reclamações mais comuns sem precisar reescrever o lado visual.
Não vale recriar se:
- O clipe era apenas movimento sem personagens ou diálogo — o teto de qualidade visual em 720p não mudou, e as melhorias de comportamento de extensão são marginais para saída de segmento único.
- Você usa muito o Modo de Modificação — o Modify ainda reduz automaticamente qualquer entrada acima de 854×480 para 480p antes do processamento, e esse comportamento não mudou no 1.5.
- O original era um plano de B-roll atmosférico curto (abaixo de 8s) sem personagens. A melhoria no áudio ambiente é real, mas provavelmente não justifica uma regeneração ao preço atual de créditos.
Aviso
O limite de downscale para 480p do Modo de Modificação não mudou no 1.5. Se você precisar editar um clipe 720p sem perda de resolução, faça a passagem de modificação antes da sua geração final em 720p, não depois.
Comece no OmniArt
O Grok Imagine 1.5 está disponível no espaço de trabalho de vídeo do OmniArt ao lado do V6, BACH, Sora 2, Veo 3, Kling 3.0, HappyHorse 1.0 e Seedance 2.0. Nenhuma assinatura separada da xAI é necessária — o mesmo saldo de créditos do OmniArt cobre todos os modelos.
A forma mais rápida de calibrar o 1.5 é rodar um prompt que você já conhece do 1.0. Mesma entrada, saída lado a lado, com as melhorias de rosto e áudio imediatamente visíveis em relação ao seu baseline. Comece por aí, depois decida quais projetos do 1.0 realmente valem a pena recriar.
Para o detalhamento completo dos seis modos, o cálculo de créditos e os padrões de prompt do Modo de Referência, consulte o guia do Grok Imagine. Para uma comparação com múltiplos modelos onde o ranking de imagem para vídeo do Grok Imagine se encaixa no cenário mais amplo de 2026, o ranking dos melhores modelos de imagem para vídeo tem os rankings atuais.
Pronto para criar?
Comece a gerar conteúdo incrível com IA