HappyHorse 1.0 vs Seedance 2.0: o que os rankings Elo não mostram
HappyHorse lidera o Elo em vídeo silencioso. Testamos três prompts reais com áudio: resultados lado a lado, placares e guia de escolha para criadores na OmniArt.

O ranking da Artificial Analysis coloca o HappyHorse 1.0 em #1 em texto para vídeo sem áudio, com o Seedance 2.0 em segundo. É a comparação fácil — e também a mais entediante: leaderboards silenciosos premiam o que é simples de comparar lado a lado. Briefings de produção real rodam com som, com restrições e com vários elementos em movimento ao mesmo tempo.
Rodamos três desses briefings nos dois modelos — um duelo de samurais, uma performance de jazz e uma cena de mercado noturno em Bangkok — avaliando sete dimensões, incluindo sincronização de áudio e usabilidade geral. A diferença de Elo não encolheu. Ficou maior, a favor do HappyHorse, em pontos que não esperávamos. Abaixo está a leitura completa, mais um guia de escolha cenário a cenário para criadores que decidem entre eles na OmniArt.
HappyHorse 1.0 vs Seedance 2.0: especificações rápidas
| Especificação | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| Desenvolvedor | Alibaba (ATH AI Innovation Unit) | ByteDance (Seed Research) |
| Lançamento | 7 abr. 2026 (arena) / 27 abr. 2026 (API) | 10 fev. 2026 |
| Arquitetura | Transformer unificado de autoatenção em 40 camadas (~15B parâmetros) | Dual-Branch Diffusion Transformer (DB-DiT) |
| Resolução máxima | 1080p | Até 2K |
| Duração máxima | 5–15 segundos | 4–15 segundos |
| Áudio | Áudio-vídeo conjunto, passagem única | Áudio-vídeo conjunto, ramos duplos + cross-attention |
| Lip-sync | 7 idiomas (EN, ZH, cantonês, JA, KO, DE, FR) | Multilíngue, sincronização em nível de milissegundo |
| Entradas de referência | Texto, imagem | Texto, até 9 imagens, 3 clipes de vídeo, 3 clipes de áudio |
| Controle de câmera | Baseado em prompt | Nível de diretor (câmera, luz, sombra, performance) |
| Elo: T2V sem áudio | ~1.357 (#1) | ~1.269 (#2) |
| Elo: T2V com áudio | ~1.210 (#2) | ~1.220 (#1 ou empatado) |
| Código aberto | Anunciado; pesos ainda não verificados de forma independente | Código fechado |
| Acesso à API | fal.ai, Replicate, Alibaba Cloud | Dreamina, CapCut, BytePlus Ark, fal.ai |
A diferença de Elo em vídeo silencioso é de cerca de 88 pontos — algo como 58% de vitórias em testes cegos para o HappyHorse. Esse é o benchmark público. A pergunta interessante é se isso sobrevive a som, complexidade e rubricas de avaliação que parecem necessidades reais de produção.
O que HappyHorse 1.0 e Seedance 2.0 realmente são
HappyHorse 1.0
O HappyHorse processa tokens de texto, imagem, vídeo e áudio em uma única sequência por 40 camadas de autoatenção. Gera vídeo em 1080p com lip-sync em sete idiomas, efeitos Foley e som ambiente — tudo em uma passagem unificada.
O modelo apareceu de forma anônima na Artificial Analysis Video Arena em 7 de abril de 2026, subiu ao topo do ranking imediatamente e sumiu 72 horas depois. A Alibaba confirmou a propriedade depois e lançou acesso via API em 27 de abril.
Seedance 2.0
O Seedance usa um Dual-Branch Diffusion Transformer: um ramo gera vídeo, outro gera áudio, e cross-attention os conecta no nível de milissegundo. Aceita até 9 imagens de referência, 3 clipes de vídeo e 3 arquivos de áudio por geração, permitindo controle em nível de diretor sobre movimento de câmera, iluminação e performance do personagem. Lançou em 10 de fevereiro de 2026.
Note
A diferença em uma frase: o HappyHorse gera uma experiência audiovisual unificada em passagem única. O Seedance gera vídeo e áudio em ramos separados e depois os sincroniza. Essa escolha arquitetural molda toda a comparação abaixo.
Como testamos
A maioria dos artigos de comparação repete os mesmos testes de paisagem e retrato — basicamente reexecutando o que o benchmark Elo já capturou. Focamos em três cenários reais de produção pensados para estressar áudio, comportamento de câmera e coordenação multi-elemento — o que um leaderboard silencioso não vê.
Cada teste foi pontuado em sete dimensões:
- Qualidade visual
- Fluidez de movimento
- Aderência ao prompt
- Trabalho de câmera
- Qualidade de áudio
- Sincronização áudio-vídeo
- Usabilidade geral
Teste 1: ação cinematográfica — o duelo no bambu
Prompt: Um samurai solitário em armadura preta laqueada ao amanhecer desembainha uma katana em uma floresta densa de bambu. Névoa, vento, som metálico da lâmina, sinos de templo e um pull de câmera do close na mão ao plano geral em tracking.
Resultado HappyHorse 1.0. A execução visual entrega — reflexos especulares convincentes na armadura, névoa volumétrica e desembainhar da lâmina com peso realista. O destaque é a sincronização de áudio: o som metálico da lâmina chega em sincronia firme com o gesto visual, nem adiantado nem atrasado, nos frames certos. A arquitetura unificada compensa — o Transformer de fluxo único trata visão e som como partes de um mesmo evento, e dá para ouvir a diferença.
Resultado Seedance 2.0. A fidelidade visual fica um degrau abaixo — textura da armadura mais suave, névoa menos volumétrica. A câmera ganha aqui: o pull de close para aberto segue mais de perto a especificação e parece planejado, não aproximado. O áudio não tem a imersão espacial do HappyHorse — os sons parecem perto da câmera em vez de distribuídos na cena.
Placar do teste 1:
| Dimensão | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| Qualidade visual | ✓ | |
| Fluidez de movimento | ✓ | |
| Aderência ao prompt | ✓ | |
| Trabalho de câmera | ✓ | |
| Qualidade de áudio | ✓ | |
| Sincronização áudio-vídeo | ✓ | |
| Usabilidade geral | ✓ |
Veredito: HappyHorse vence em 6 de 7 dimensões. A precisão de câmera do Seedance é real — ele segue o pull-out com mais fidelidade — mas não compensa a lacuna de áudio.
Teste 2: performance musical — última música no Blue Note
Prompt: Uma cantora de jazz em veludo carmesim sob holofote âmbar performa com piano. Fumaça de cigarro, tilintar de copos, conversa abafada e um push-in lento de câmera conforme a melodia cresce.
Resultado HappyHorse 1.0. O brilho do veludo parece realista; a fumaça parece simulada fisicamente, não pintada por cima. O balanço da cantora tem ritmo natural, não a oscilação robótica que denuncia muitos clipes de música com IA. O áudio é o ganho maior: voz e piano acompanham-se como um único evento musical. Os lábios seguem a linha vocal sem o drift no meio do clipe que esperávamos. O modelo não sincroniza dois fluxos separados depois — gera uma experiência audiovisual unificada.
Resultado Seedance 2.0. Visuais sólidos, porém menos atmosféricos — veludo menos convincente, fumaça menos dinâmica. O áudio perde o soundscape completo: o clube deveria soar em camadas com copos e plateia abafada, mas no output do Seedance esses detalhes ambiente ficam fracos ou ausentes. A câmera permanece disciplinada — o push-in segue o prompt mais literalmente que o HappyHorse, médio para close conforme especificado.
Placar do teste 2:
| Dimensão | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| Qualidade visual | ✓ | |
| Fluidez de movimento | ✓ | |
| Aderência ao prompt | ✓ | |
| Trabalho de câmera | ✓ | |
| Qualidade de áudio | ✓ | |
| Sincronização áudio-vídeo | ✓ | |
| Usabilidade geral | ✓ |
Veredito: HappyHorse vence esta rodada com mais clareza do que esperávamos. O Seedance lida com cantora e piano, mas deixa de fora instruções demais de som ambiente para ser a melhor escolha em um briefing musical.
Teste 3: cena multi-elemento — fogo no mercado noturno
Prompt: Um vendedor de comida de rua em Bangkok salta um wok sobre chama alta à noite. Dinâmica do fogo, seis clientes, uma mulher filmando com tela de celular brilhante, câmera documental na mão, áudio com rugido do fogão, óleo chiando, pedidos em tailandês, trânsito e pop distante.
Resultado HappyHorse 1.0. A dinâmica do fogo impressiona — as chamas respondem ao arremesso do wok com física convincente, faíscas em trajetórias críveis. O arremesso de macarrão tem arco e timing certos. O áudio traz rugido do fogão, óleo chiando, trânsito e atmosfera de rua mais ampla. A performance humana falha: vendedor e clientes estão presentes, mas os rostos não reagem de forma natural ao calor, à velocidade e ao burburinho social.
Resultado Seedance 2.0. Visualmente menos explosivo, mas a cena lê de forma mais coerente. A linguagem de câmera se destaca — o movimento na mão parece intencional, o desfoque guia a atenção e o clipe tem sequência mais clara de chama para vendedor para multidão. O comportamento humano convence mais — movimento do vendedor, atenção dos clientes e reações da multidão encaixam melhor na situação que a performance mais rígida do HappyHorse. A completude do áudio fica curta: chiado básico e ambiente de rua existem, mas o vendedor chamando pedidos em tailandês não aparece.
Placar do teste 3:
| Dimensão | HappyHorse 1.0 | Seedance 2.0 |
|---|---|---|
| Qualidade visual | ✓ | |
| Fluidez de movimento | ✓ | |
| Aderência ao prompt | ✓ | ✓ |
| Trabalho de câmera | ✓ | |
| Qualidade de áudio | ✓ | |
| Sincronização áudio-vídeo | ✓ | |
| Usabilidade geral | ✓ | ✓ |
Veredito: Esta é a rodada mais equilibrada. O HappyHorse captura mais elementos visuais e de áudio pedidos; o Seedance conta a cena melhor.
Resultados gerais
| Dimensão | Vitórias HappyHorse | Vitórias Seedance | Empate |
|---|---|---|---|
| Qualidade visual | 3 | 0 | 0 |
| Fluidez de movimento | 2 | 1 | 0 |
| Aderência ao prompt | 2 | 1 | 1 |
| Trabalho de câmera | 0 | 3 | 0 |
| Qualidade de áudio | 3 | 0 | 0 |
| Sincronização áudio-vídeo | 3 | 0 | 0 |
| Usabilidade geral | 2 | 0 | 1 |
A surpresa não é o HappyHorse vencer em visual — o leaderboard já dizia isso. A surpresa é ele vencer também em áudio. A diferença aumenta com som, não diminui. A arquitetura unificada produz experiência audiovisual mais coesa que a abordagem separar-e-sincronizar.
O que a comunidade está dizendo
O sentimento em threads de criadores converge em alguns temas:
- Consenso de qualidade. A lacuna visual é clara; usuários destacam cada vez mais o áudio como mais forte do que esperavam, especialmente em soundscapes ambiente e Foley.
- Vantagem de produção. Quando a conversa vira repetibilidade, controle por referência e fluxos dirigidos, o Seedance leva vantagem.
- Limitações persistentes. Ambos ainda lutam com posicionamento preciso de múltiplos personagens.
- Escolha por tarefa. Use HappyHorse quando quiser o clipe único mais forte. Use Seedance quando precisar dirigir o output com referências.
Essa leitura da comunidade alinha com os testes acima.
Por que a lacuna de áudio nos surpreende
A Artificial Analysis Video Arena faz testes visuais cegos em que usuários comparam clipes sem rótulo lado a lado. Em vídeo silencioso, o HappyHorse lidera por ~88 pontos de Elo. Com áudio, as pontuações públicas se aproximam da paridade — o que sugeriria que a arquitetura de ramos separados do Seedance alcança.
Na prática — assistindo clipes inteiros em velocidade normal com som ligado — a vantagem do HappyHorse não encolheu. Cresceu. Por quê? Comparações A/B isoladas de clipes curtos enfatizam eventos de áudio óbvios (som da lâmina, nota de piano) em vez de coesão ambiente. Coesão ambiente é exatamente onde a geração unificada em passagem única do HappyHorse se adianta.
Quando escolher HappyHorse 1.0
- Qualidade de clipe único em primeiro lugar
- Projetos que precisam de soundscapes ambiente imersivos
- Iteração rápida (clipe de 5 segundos em 1080p em ~38 segundos em H100)
- Trabalho criativo — mood boards, clipes hero para redes
- Talking-head com lip-sync multilíngue (7 idiomas)
Quando escolher Seedance 2.0
- Controle de entrada em nível de diretor (até 9 imagens de referência, 3 clipes, 3 áudios)
- Precisão de câmera e aderência a storyboard
- Sequências multi-shot com personagens e props consistentes
- Pipelines de produção que precisam de estabilidade e documentação madura
HappyHorse ou Seedance: escolha por cenário
| Cenário | Primeira escolha | Por quê |
|---|---|---|
| Clipe hero para redes | HappyHorse | Clipe único mais forte com áudio imersivo |
| Anúncio de produto com shots específicos | Seedance | Controle de câmera + consistência por referência |
| Videoclipe | HappyHorse | Geração audiovisual mais coesa |
| Sequência narrativa multi-shot | Seedance | Sistema de referência mantém shots consistentes |
| Exploração de conceito / mood board | HappyHorse | Teto visual mais alto, geração rápida |
| Talking head com lip-sync preciso | HappyHorse | Lip-sync forte em 7 idiomas |
| Produção guiada por storyboard | Seedance | Segue instruções de câmera e plano com mais fidelidade |
| B-roll cinematográfico com atmosfera | HappyHorse | Áudio ambiental + drama visual |
| Cena dirigida a partir de assets de referência | Seedance | Sistema de 9 imagens + 3 vídeos |
| Pitch rápido para cliente | HappyHorse | Rápido, maior impacto no primeiro frame |
HappyHorse 1.0 vs Seedance 2.0: FAQ
O HappyHorse 1.0 é melhor que o Seedance 2.0?
Nos nossos testes, o HappyHorse produziu output mais forte na maioria das dimensões — qualidade visual, fluidez de movimento, riqueza de áudio e usabilidade geral do clipe. O Seedance superou em precisão de câmera e dirigibilidade por referência.
O HappyHorse 1.0 gera áudio?
Sim. O HappyHorse gera áudio nativamente na mesma passagem que o vídeo, incluindo diálogo com lip-sync em sete idiomas (inglês, mandarim, cantonês, japonês, coreano, alemão, francês), Foley e som ambiente.
Qual modelo é mais rápido?
O HappyHorse gera um clipe de 5 segundos em 1080p em ~38 segundos em infraestrutura H100. Os tempos do Seedance variam por plataforma e configuração, mas ficam em faixa parecida.
O HappyHorse 1.0 é realmente código aberto?
A Alibaba anunciou liberação open source de pesos, modelos destilados e código de inferência. Em maio de 2026, o modelo está acessível via fal.ai, Replicate e APIs da Alibaba Cloud. Pesos públicos verificados de forma independente no GitHub ou Hugging Face ainda não foram confirmados.
O Seedance 2.0 pode igualar a qualidade visual do HappyHorse?
Em comparações frame a frame, o HappyHorse produz texturas mais nítidas, iluminação mais dramática e movimento mais fluido de forma consistente. O visual do Seedance é sólido, mas um degrau abaixo.
Qual modelo lida melhor com prompts complexos?
O HappyHorse gera output mais impressionante a partir de prompts complexos, mas às vezes toma liberdades criativas com instruções de câmera e espaço. O Seedance segue instruções detalhadas de prompt com mais literalidade.
Ambos suportam imagem para vídeo?
Sim. Ambos aceitam imagem de referência como entrada e geram vídeo a partir dela. O Elo de imagem para vídeo do HappyHorse (~1.392) lidera o do Seedance (~1.351) no benchmark público.
Veredito final: HappyHorse 1.0 vs Seedance 2.0
A arquitetura unificada do HappyHorse produz um clipe mais completo no conjunto — frames melhores, movimento mais natural, soundscape mais imersivo. O Seedance não é o modelo mais fraco. É outro tipo de ferramenta. O sistema de referência em nível de diretor, a execução previsível de câmera e o ecossistema maduro de produção o tornam a escolha certa quando você precisa controlar o output em vez de se impressionar com ele.
O fluxo mais forte em 2026 usa os dois: HappyHorse para hero shots, exploração de conceito e clipes que precisam parar o scroll; Seedance para sequências dirigidas, cortes combinados e o pipeline onde repetibilidade é o ponto.
Para uma leitura mais profunda sobre geração multi-shot e para onde isso vai, veja nosso texto complementar sobre o gerador de vídeo BACH AI.
Começando na OmniArt
O workspace de vídeo da OmniArt oferece um lugar para comparar modelos no mesmo briefing — mesmo prompt, mesmos assets de referência, outputs lado a lado — sem gerenciar contas ou modelos de preço separados. Rode o placar de sete dimensões acima nos seus próprios prompts de produção. O modelo que vence não é o de maior Elo — é o que leva seu rascunho a «aprovado» com menos takes.