industryModelos e insights7 min de leitura

DeepSeek V4 multimodal: o que criadores precisam saber

DeepSeek V4 multimodal — contexto de 1M tokens, preços V4-Flash e V4-Pro, arquitetura CSA + HCA e o que significa para criadores na stack da OmniArt.

Equipe OmniArt3 de mai. de 2026

O DeepSeek V4 entrou no ar em 24 de abril de 2026 com dois tiers, contexto de 1 milhão de tokens e comprimento máximo de saída de 384K. Não é um modelo de vídeo e não tenta substituir um. O que o V4 muda de fato é a camada acima da stack visual — o briefing, o storyboard, o brand bible, a recuperação de contexto longo que transforma «faça uma campanha» em «faça uma campanha que respeite cada shoot deste ano». Este artigo cobre o que é o DeepSeek V4, o que ele traz para criadores que usam a OmniArt e onde encaixa ao lado do restante do roster de modelos.

O que é o DeepSeek V4

O DeepSeek V4 é um modelo de raciocínio de contexto longo e uso de ferramentas com dois tiers de produção — V4-Flash e V4-Pro — ambos disponíveis via API compatível com OpenAI em api.deepseek.com. Contexto de 1M tokens mais chamadas de ferramenta estruturadas é o destaque; a arquitetura por baixo usa compressed sparse attention (CSA) mais heavy compressed attention (HCA), o que impede que o custo escale linearmente com o comprimento do contexto.

Tier	Params totais	Params ativos	Tokens de pré-treino	Preço de saída	Preço de entrada (cache miss)
V4-Flash	284B	13B	32T	¥2 / 1M tokens (~$0.28)	¥1 / 1M tokens
V4-Pro	1.6T	49B	33T	¥24 / 1M tokens (~$3.48)	¥12 / 1M tokens

Ambos os tiers limitam saída a 384K tokens. Ambos servem modos «thinking» e «non-thinking» do mesmo modelo — o V4 unifica o que V3 e R1 tratavam separadamente.

A arquitetura em um parágrafo

O ponto interessante é CSA + HCA. Compressed sparse attention restringe a atenção a um pequeno número de tokens de alta informação em cada camada; heavy compressed attention adiciona compressão densa por cima. A combinação é o que torna o contexto de 1M acessível em vez de troféu de benchmark. O DeepSeek treinou e serve o V4 em infraestrutura classe Huawei Ascend em vez de stack só CUDA, com adaptação vLLM da Cambricon cuidando da otimização de inferência.

Benchmarks que valem citar

Benchmark	Resultado
Arena.ai open-source code arena	V4-Pro #3
Arena.ai overall	V4-Pro #14
Vals AI Vibe Code Benchmark	V4 #1 entre modelos open-weight
Vibe Code vs V3.2	Salto de performance ~10×
Conjunto competitivo closed-model	Supera Gemini 3.1 Pro em cenários selecionados

A mensagem do próprio DeepSeek é honesta sobre a lacuna: o V4 «ainda fica ~três a seis meses atrás dos melhores sistemas fechados em conhecimento complexo e raciocínio». Para a maioria dos fluxos de criadores essa lacuna não prende — mas vale saber que existe.

O que mudou entre V3, R1 e V4

V3 era um modelo forte de texto e código. R1 era um modelo de raciocínio chain-of-thought. O V4 unifica ambos os modos em um modelo com caminhos de inferência thinking e non-thinking selecionáveis. Contexto expandiu de 128K (V3) para 1M (V4). Uso de ferramentas e recuperação de contexto longo agora são de primeira classe em vez de remendados.

Capacidade	V3	R1	V4
Contexto	128K	128K	1M
Modo reasoning	Não	Sim (padrão)	Alternável
Uso de ferramentas	Limitado	Limitado	De primeira classe
Multimodal	Não	Não	Roadmap (em progresso)

O que multimodal significa aqui — e o que ainda não significa

O lançamento do V4 da DeepSeek deliberadamente subvendeu a parte multimodal. O release descreveu a matriz de recursos multimodais como «continuando a evoluir» — não há entry points publicados de imagem, vídeo ou áudio no nível da API hoje. Não é crítica; é sinal de roadmap. O valor atual do V4 para criadores está em texto de contexto longo e fluxos guiados por ferramentas que envolvem a stack visual, não dentro dela.

Quando os entry points multimodais chegarem, entrarão no seletor de modelos da OmniArt como GPT Image 2 e o restante. Até lá, trate o V4 como o cérebro que dirige o briefing.

O que criadores fazem de fato com o V4 hoje

Três padrões valem a pena na OmniArt agora.

1. Brand bibles como contexto de 1M tokens

O contexto de 1M comporta confortavelmente um brand book completo, toda campanha publicada, guia de tom de voz, character sheet, lista do que não dizer e os últimos doze meses de copy de posts. Fixe tudo como contexto de sistema e peça ao V4 para rascunhar um briefing de lançamento. A saída respeita o conjunto inteiro de documentos sem round-trip de embeddings.

2. Geração estruturada longa

Saída limitada a 384K tokens. Isso basta para rascunhar uma bible narrativa inteira, storyboard de seis episódios com shot lists ou spec de localização de 50 páginas em uma passada. Para trabalho mais curto, V4-Flash a ~$0.28 por 1M tokens de saída vira a forma mais barata e confiável de rascunhar conteúdo estruturado longo.

3. Agentes tool-first que dirigem a stack visual

A disciplina de tool-call do V4 é o que importa quando você conecta geradores de imagem e vídeo. Entregue a superfície da API OmniArt, dê um briefing, e ele propõe modelo, prompt e referências plano a plano. Esse é o padrão em torno do qual a OmniArt está construindo integração.

Escolhendo entre V4-Flash e V4-Pro

A razão de preço é ~12× — Flash para ideação em volume, Pro para sessões em que profundidade importa mais que custo de token.

Job	Escolha
Brainstorm, rascunho, iteração de headline	V4-Flash
Raciocínio sobre brand bible, construção narrativa	V4-Pro
Recuperação de contexto longo sobre histórico de campanha	V4-Pro
Loops de agente com ferramentas que dirigem imagem/vídeo	V4-Pro para planejamento, V4-Flash para execução

Como o V4 encaixa ao lado da stack OmniArt

O V4 não substitui os modelos de imagem e vídeo na OmniArt. É a camada de planejamento acima deles. O padrão que emerge:

Camada	Job	Modelo
Plano	Briefing, storyboard, shot list, raciocínio de marca	DeepSeek V4-Pro
Imagem	Stills, frames de referência, layout	Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite
Vídeo	Planos animados, sequências multi-shot	V6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0
Iterar	Restyle, estender, modificar	Grok Imagine, Runway Gen-4.5

Nota

Os entry points multimodais do V4 estão no roadmap publicado da DeepSeek, mas ainda não no seletor de modelos da OmniArt. Publicaremos follow-up no dia em que chegarem — créditos, prompts recomendados e posição na stack.

O que acompanhar a seguir

Três sinais que valem a pena nas próximas duas semanas.

Entry points multimodais na API. Quando a DeepSeek publicar, a conversa do seletor de modelos reabre.
Variantes destiladas do V4. Reportagens anteriores citaram V4 Lite e variante menor. Ambas podem mudar a superfície de custo para agentes com muitas tool-calls.
História de hardware. O caminho de inferência classe Huawei Ascend importa para regiões onde modelos só CUDA são mais difíceis de implantar.

Começando na OmniArt

O DeepSeek V4 ainda não é modelo de um clique no seletor da OmniArt — seu lar atual é a API. Se você quer usá-lo como camada de planejamento acima da OmniArt hoje, dirija via endpoint compatível com OpenAI em api.deepseek.com e aponte a superfície de tool-call para a API OmniArt de geração de imagem e vídeo.

Para leitura de contexto sobre o lado visual da stack, a comparação GPT Image 2 vs Nano Banana 2 cobre a decisão de imagem flagship, e a shortlist de melhores image-to-video cobre as opções de vídeo que o V4 eventualmente dirigirá.

Pronto para criar?

Comece a gerar conteúdo incrível com IA

Começar grátis