industryModelos e insights7 min read
Journal · Modelos e insights

DeepSeek V4 multimodal: o que criadores precisam saber

DeepSeek V4 multimodal — contexto de 1M tokens, preços V4-Flash e V4-Pro, arquitetura CSA + HCA e o que significa para criadores na stack da OmniArt.

Equipe OmniArt·
DeepSeek V4 multimodal: o que criadores precisam saber

O DeepSeek V4 entrou no ar em 24 de abril de 2026 com dois tiers, contexto de 1 milhão de tokens e comprimento máximo de saída de 384K. Não é um modelo de vídeo e não tenta substituir um. O que o V4 muda de fato é a camada acima da stack visual — o briefing, o storyboard, o brand bible, a recuperação de contexto longo que transforma «faça uma campanha» em «faça uma campanha que respeite cada shoot deste ano». Este artigo cobre o que é o DeepSeek V4, o que ele traz para criadores que usam a OmniArt e onde encaixa ao lado do restante do roster de modelos.

O que é o DeepSeek V4

O DeepSeek V4 é um modelo de raciocínio de contexto longo e uso de ferramentas com dois tiers de produção — V4-Flash e V4-Pro — ambos disponíveis via API compatível com OpenAI em api.deepseek.com. Contexto de 1M tokens mais chamadas de ferramenta estruturadas é o destaque; a arquitetura por baixo usa compressed sparse attention (CSA) mais heavy compressed attention (HCA), o que impede que o custo escale linearmente com o comprimento do contexto.

TierParams totaisParams ativosTokens de pré-treinoPreço de saídaPreço de entrada (cache miss)
V4-Flash284B13B32T¥2 / 1M tokens (~$0.28)¥1 / 1M tokens
V4-Pro1.6T49B33T¥24 / 1M tokens (~$3.48)¥12 / 1M tokens

Ambos os tiers limitam saída a 384K tokens. Ambos servem modos «thinking» e «non-thinking» do mesmo modelo — o V4 unifica o que V3 e R1 tratavam separadamente.

A arquitetura em um parágrafo

O ponto interessante é CSA + HCA. Compressed sparse attention restringe a atenção a um pequeno número de tokens de alta informação em cada camada; heavy compressed attention adiciona compressão densa por cima. A combinação é o que torna o contexto de 1M acessível em vez de troféu de benchmark. O DeepSeek treinou e serve o V4 em infraestrutura classe Huawei Ascend em vez de stack só CUDA, com adaptação vLLM da Cambricon cuidando da otimização de inferência.

Benchmarks que valem citar

BenchmarkResultado
Arena.ai open-source code arenaV4-Pro #3
Arena.ai overallV4-Pro #14
Vals AI Vibe Code BenchmarkV4 #1 entre modelos open-weight
Vibe Code vs V3.2Salto de performance ~10×
Conjunto competitivo closed-modelSupera Gemini 3.1 Pro em cenários selecionados

A mensagem do próprio DeepSeek é honesta sobre a lacuna: o V4 «ainda fica ~três a seis meses atrás dos melhores sistemas fechados em conhecimento complexo e raciocínio». Para a maioria dos fluxos de criadores essa lacuna não prende — mas vale saber que existe.

O que mudou entre V3, R1 e V4

V3 era um modelo forte de texto e código. R1 era um modelo de raciocínio chain-of-thought. O V4 unifica ambos os modos em um modelo com caminhos de inferência thinking e non-thinking selecionáveis. Contexto expandiu de 128K (V3) para 1M (V4). Uso de ferramentas e recuperação de contexto longo agora são de primeira classe em vez de remendados.

CapacidadeV3R1V4
Contexto128K128K1M
Modo reasoningNãoSim (padrão)Alternável
Uso de ferramentasLimitadoLimitadoDe primeira classe
MultimodalNãoNãoRoadmap (em progresso)

O que multimodal significa aqui — e o que ainda não significa

O lançamento do V4 da DeepSeek deliberadamente subvendeu a parte multimodal. O release descreveu a matriz de recursos multimodais como «continuando a evoluir» — não há entry points publicados de imagem, vídeo ou áudio no nível da API hoje. Não é crítica; é sinal de roadmap. O valor atual do V4 para criadores está em texto de contexto longo e fluxos guiados por ferramentas que envolvem a stack visual, não dentro dela.

Quando os entry points multimodais chegarem, entrarão no seletor de modelos da OmniArt como GPT Image 2 e o restante. Até lá, trate o V4 como o cérebro que dirige o briefing.

O que criadores fazem de fato com o V4 hoje

Três padrões valem a pena na OmniArt agora.

1. Brand bibles como contexto de 1M tokens

O contexto de 1M comporta confortavelmente um brand book completo, toda campanha publicada, guia de tom de voz, character sheet, lista do que não dizer e os últimos doze meses de copy de posts. Fixe tudo como contexto de sistema e peça ao V4 para rascunhar um briefing de lançamento. A saída respeita o conjunto inteiro de documentos sem round-trip de embeddings.

2. Geração estruturada longa

Saída limitada a 384K tokens. Isso basta para rascunhar uma bible narrativa inteira, storyboard de seis episódios com shot lists ou spec de localização de 50 páginas em uma passada. Para trabalho mais curto, V4-Flash a ~$0.28 por 1M tokens de saída vira a forma mais barata e confiável de rascunhar conteúdo estruturado longo.

3. Agentes tool-first que dirigem a stack visual

A disciplina de tool-call do V4 é o que importa quando você conecta geradores de imagem e vídeo. Entregue a superfície da API OmniArt, dê um briefing, e ele propõe modelo, prompt e referências plano a plano. Esse é o padrão em torno do qual a OmniArt está construindo integração.

Escolhendo entre V4-Flash e V4-Pro

A razão de preço é ~12× — Flash para ideação em volume, Pro para sessões em que profundidade importa mais que custo de token.

JobEscolha
Brainstorm, rascunho, iteração de headlineV4-Flash
Raciocínio sobre brand bible, construção narrativaV4-Pro
Recuperação de contexto longo sobre histórico de campanhaV4-Pro
Loops de agente com ferramentas que dirigem imagem/vídeoV4-Pro para planejamento, V4-Flash para execução

Como o V4 encaixa ao lado da stack OmniArt

O V4 não substitui os modelos de imagem e vídeo na OmniArt. É a camada de planejamento acima deles. O padrão que emerge:

CamadaJobModelo
PlanoBriefing, storyboard, shot list, raciocínio de marcaDeepSeek V4-Pro
ImagemStills, frames de referência, layoutNano Banana Pro, GPT Image 2, Seedream 5.0 Lite
VídeoPlanos animados, sequências multi-shotV6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0
IterarRestyle, estender, modificarGrok Imagine, Runway Gen-4.5

Note

Os entry points multimodais do V4 estão no roadmap publicado da DeepSeek, mas ainda não no seletor de modelos da OmniArt. Publicaremos follow-up no dia em que chegarem — créditos, prompts recomendados e posição na stack.

O que acompanhar a seguir

Três sinais que valem a pena nas próximas duas semanas.

  • Entry points multimodais na API. Quando a DeepSeek publicar, a conversa do seletor de modelos reabre.
  • Variantes destiladas do V4. Reportagens anteriores citaram V4 Lite e variante menor. Ambas podem mudar a superfície de custo para agentes com muitas tool-calls.
  • História de hardware. O caminho de inferência classe Huawei Ascend importa para regiões onde modelos só CUDA são mais difíceis de implantar.

Começando na OmniArt

O DeepSeek V4 ainda não é modelo de um clique no seletor da OmniArt — seu lar atual é a API. Se você quer usá-lo como camada de planejamento acima da OmniArt hoje, dirija via endpoint compatível com OpenAI em api.deepseek.com e aponte a superfície de tool-call para a API OmniArt de geração de imagem e vídeo.

Para leitura de contexto sobre o lado visual da stack, a comparação GPT Image 2 vs Nano Banana 2 cobre a decisão de imagem flagship, e a shortlist de melhores image-to-video cobre as opções de vídeo que o V4 eventualmente dirigirá.

Start creating

Pronto para criar?

Comece a gerar conteúdo incrível com IA