DeepSeek V4 multimodal: o que criadores precisam saber
DeepSeek V4 multimodal — contexto de 1M tokens, preços V4-Flash e V4-Pro, arquitetura CSA + HCA e o que significa para criadores na stack da OmniArt.

O DeepSeek V4 entrou no ar em 24 de abril de 2026 com dois tiers, contexto de 1 milhão de tokens e comprimento máximo de saída de 384K. Não é um modelo de vídeo e não tenta substituir um. O que o V4 muda de fato é a camada acima da stack visual — o briefing, o storyboard, o brand bible, a recuperação de contexto longo que transforma «faça uma campanha» em «faça uma campanha que respeite cada shoot deste ano». Este artigo cobre o que é o DeepSeek V4, o que ele traz para criadores que usam a OmniArt e onde encaixa ao lado do restante do roster de modelos.
O que é o DeepSeek V4
O DeepSeek V4 é um modelo de raciocínio de contexto longo e uso de ferramentas com dois tiers de produção — V4-Flash e V4-Pro — ambos disponíveis via API compatível com OpenAI em api.deepseek.com. Contexto de 1M tokens mais chamadas de ferramenta estruturadas é o destaque; a arquitetura por baixo usa compressed sparse attention (CSA) mais heavy compressed attention (HCA), o que impede que o custo escale linearmente com o comprimento do contexto.
| Tier | Params totais | Params ativos | Tokens de pré-treino | Preço de saída | Preço de entrada (cache miss) |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | 32T | ¥2 / 1M tokens (~$0.28) | ¥1 / 1M tokens |
| V4-Pro | 1.6T | 49B | 33T | ¥24 / 1M tokens (~$3.48) | ¥12 / 1M tokens |
Ambos os tiers limitam saída a 384K tokens. Ambos servem modos «thinking» e «non-thinking» do mesmo modelo — o V4 unifica o que V3 e R1 tratavam separadamente.
A arquitetura em um parágrafo
O ponto interessante é CSA + HCA. Compressed sparse attention restringe a atenção a um pequeno número de tokens de alta informação em cada camada; heavy compressed attention adiciona compressão densa por cima. A combinação é o que torna o contexto de 1M acessível em vez de troféu de benchmark. O DeepSeek treinou e serve o V4 em infraestrutura classe Huawei Ascend em vez de stack só CUDA, com adaptação vLLM da Cambricon cuidando da otimização de inferência.
Benchmarks que valem citar
| Benchmark | Resultado |
|---|---|
| Arena.ai open-source code arena | V4-Pro #3 |
| Arena.ai overall | V4-Pro #14 |
| Vals AI Vibe Code Benchmark | V4 #1 entre modelos open-weight |
| Vibe Code vs V3.2 | Salto de performance ~10× |
| Conjunto competitivo closed-model | Supera Gemini 3.1 Pro em cenários selecionados |
A mensagem do próprio DeepSeek é honesta sobre a lacuna: o V4 «ainda fica ~três a seis meses atrás dos melhores sistemas fechados em conhecimento complexo e raciocínio». Para a maioria dos fluxos de criadores essa lacuna não prende — mas vale saber que existe.
O que mudou entre V3, R1 e V4
V3 era um modelo forte de texto e código. R1 era um modelo de raciocínio chain-of-thought. O V4 unifica ambos os modos em um modelo com caminhos de inferência thinking e non-thinking selecionáveis. Contexto expandiu de 128K (V3) para 1M (V4). Uso de ferramentas e recuperação de contexto longo agora são de primeira classe em vez de remendados.
| Capacidade | V3 | R1 | V4 |
|---|---|---|---|
| Contexto | 128K | 128K | 1M |
| Modo reasoning | Não | Sim (padrão) | Alternável |
| Uso de ferramentas | Limitado | Limitado | De primeira classe |
| Multimodal | Não | Não | Roadmap (em progresso) |
O que multimodal significa aqui — e o que ainda não significa
O lançamento do V4 da DeepSeek deliberadamente subvendeu a parte multimodal. O release descreveu a matriz de recursos multimodais como «continuando a evoluir» — não há entry points publicados de imagem, vídeo ou áudio no nível da API hoje. Não é crítica; é sinal de roadmap. O valor atual do V4 para criadores está em texto de contexto longo e fluxos guiados por ferramentas que envolvem a stack visual, não dentro dela.
Quando os entry points multimodais chegarem, entrarão no seletor de modelos da OmniArt como GPT Image 2 e o restante. Até lá, trate o V4 como o cérebro que dirige o briefing.
O que criadores fazem de fato com o V4 hoje
Três padrões valem a pena na OmniArt agora.
1. Brand bibles como contexto de 1M tokens
O contexto de 1M comporta confortavelmente um brand book completo, toda campanha publicada, guia de tom de voz, character sheet, lista do que não dizer e os últimos doze meses de copy de posts. Fixe tudo como contexto de sistema e peça ao V4 para rascunhar um briefing de lançamento. A saída respeita o conjunto inteiro de documentos sem round-trip de embeddings.
2. Geração estruturada longa
Saída limitada a 384K tokens. Isso basta para rascunhar uma bible narrativa inteira, storyboard de seis episódios com shot lists ou spec de localização de 50 páginas em uma passada. Para trabalho mais curto, V4-Flash a ~$0.28 por 1M tokens de saída vira a forma mais barata e confiável de rascunhar conteúdo estruturado longo.
3. Agentes tool-first que dirigem a stack visual
A disciplina de tool-call do V4 é o que importa quando você conecta geradores de imagem e vídeo. Entregue a superfície da API OmniArt, dê um briefing, e ele propõe modelo, prompt e referências plano a plano. Esse é o padrão em torno do qual a OmniArt está construindo integração.
Escolhendo entre V4-Flash e V4-Pro
A razão de preço é ~12× — Flash para ideação em volume, Pro para sessões em que profundidade importa mais que custo de token.
| Job | Escolha |
|---|---|
| Brainstorm, rascunho, iteração de headline | V4-Flash |
| Raciocínio sobre brand bible, construção narrativa | V4-Pro |
| Recuperação de contexto longo sobre histórico de campanha | V4-Pro |
| Loops de agente com ferramentas que dirigem imagem/vídeo | V4-Pro para planejamento, V4-Flash para execução |
Como o V4 encaixa ao lado da stack OmniArt
O V4 não substitui os modelos de imagem e vídeo na OmniArt. É a camada de planejamento acima deles. O padrão que emerge:
| Camada | Job | Modelo |
|---|---|---|
| Plano | Briefing, storyboard, shot list, raciocínio de marca | DeepSeek V4-Pro |
| Imagem | Stills, frames de referência, layout | Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite |
| Vídeo | Planos animados, sequências multi-shot | V6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0 |
| Iterar | Restyle, estender, modificar | Grok Imagine, Runway Gen-4.5 |
Note
Os entry points multimodais do V4 estão no roadmap publicado da DeepSeek, mas ainda não no seletor de modelos da OmniArt. Publicaremos follow-up no dia em que chegarem — créditos, prompts recomendados e posição na stack.
O que acompanhar a seguir
Três sinais que valem a pena nas próximas duas semanas.
- Entry points multimodais na API. Quando a DeepSeek publicar, a conversa do seletor de modelos reabre.
- Variantes destiladas do V4. Reportagens anteriores citaram V4 Lite e variante menor. Ambas podem mudar a superfície de custo para agentes com muitas tool-calls.
- História de hardware. O caminho de inferência classe Huawei Ascend importa para regiões onde modelos só CUDA são mais difíceis de implantar.
Começando na OmniArt
O DeepSeek V4 ainda não é modelo de um clique no seletor da OmniArt — seu lar atual é a API. Se você quer usá-lo como camada de planejamento acima da OmniArt hoje, dirija via endpoint compatível com OpenAI em api.deepseek.com e aponte a superfície de tool-call para a API OmniArt de geração de imagem e vídeo.
Para leitura de contexto sobre o lado visual da stack, a comparação GPT Image 2 vs Nano Banana 2 cobre a decisão de imagem flagship, e a shortlist de melhores image-to-video cobre as opções de vídeo que o V4 eventualmente dirigirá.