DeepSeek V4 multimodale: cosa devono sapere i creator
DeepSeek V4 multimodale — contesto 1M token, prezzi V4-Flash e V4-Pro, architettura CSA + HCA e cosa significa per i creator nello stack OmniArt.

DeepSeek V4 è andato live il 24 aprile 2026 con due tier, un contesto da 1 milione di token e una lunghezza massima di output di 384K. Non è un modello video e non sta cercando di sostituirne uno. Ciò che V4 cambia davvero è lo strato sopra lo stack visivo — il brief, lo storyboard, il brand bible, il retrieval long-context che trasforma «fai una campagna» in «fai una campagna che rispetta ogni shoot di quest'anno». Questo pezzo copre cos'è DeepSeek V4, cosa c'è per i creator che usano OmniArt e dove si colloca accanto al resto del roster modelli.
Cos'è DeepSeek V4
DeepSeek V4 è un modello di reasoning long-context e tool-use con due tier di produzione — V4-Flash e V4-Pro — entrambi disponibili via API compatibile OpenAI su api.deepseek.com. Il contesto da 1M token più le tool call strutturate è la headline; l'architettura sotto usa compressed sparse attention (CSA) più heavy compressed attention (HCA), che è ciò che tiene il costo dal scalare linearmente con la lunghezza del contesto.
| Tier | Param totali | Param attivi | Token pre-training | Prezzo output | Prezzo input (cache miss) |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | 32T | ¥2 / 1M token (~$0,28) | ¥1 / 1M token |
| V4-Pro | 1,6T | 49B | 33T | ¥24 / 1M token (~$3,48) | ¥12 / 1M token |
Entrambi i tier limitano l'output a 384K token. Entrambi servono modalità «thinking» e «non-thinking» dallo stesso modello — V4 unifica ciò che V3 e R1 gestivano separatamente.
L'architettura in un paragrafo
La parte interessante è CSA + HCA. La compressed sparse attention restringe l'attenzione a un piccolo numero di token ad alta informazione a ogni layer; le heavy compressed attention layer stratificano compressione densa sopra. La combinazione è ciò che rende il contesto 1M economico piuttosto che un trofeo da benchmark. DeepSeek ha addestrato e serve V4 su infrastruttura Huawei Ascend-class piuttosto che stack solo CUDA, con l'adattamento vLLM di Cambricon che gestisce l'ottimizzazione inferenza.
Benchmark che vale la pena citare
| Benchmark | Risultato |
|---|---|
| Arena.ai open-source code arena | V4-Pro #3 |
| Arena.ai overall | V4-Pro #14 |
| Vals AI Vibe Code Benchmark | V4 #1 tra modelli open-weight |
| Vibe Code vs V3.2 | ~10× salto performance |
| Set competitivo closed-model | Batte Gemini 3.1 Pro in scenari selezionati |
Il messaging di DeepSeek è onesto sul divario: V4 «resta ancora circa tre-sei mesi dietro i sistemi closed top in capacità di knowledge e reasoning complesso». Per la maggior parte dei workflow creator quel divario non lega — ma vale sapere che esiste.
Cosa è cambiato tra V3, R1 e V4
V3 era un modello testo e codice forte. R1 era un modello reasoning chain-of-thought. V4 unifica entrambe le modalità sotto un modello con percorsi di inferenza thinking e non-thinking selezionabili. Il contesto è passato da 128K (V3) a 1M (V4). Tool use e retrieval long-context sono ora first-class invece che patchati sopra.
| Capacità | V3 | R1 | V4 |
|---|---|---|---|
| Contesto | 128K | 128K | 1M |
| Modalità reasoning | No | Sì (default) | Selezionabile |
| Tool use | Limitato | Limitato | First-class |
| Multimodale | No | No | Roadmap (in corso) |
Cosa significa multimodale qui — e cosa no (ancora)
DeepSeek ha deliberatamente undersold la parte multimodale del lancio V4. Il rilascio descriveva la matrice feature multimodale come «in continua evoluzione» — non ci sono entry point immagine, video o audio pubblicati a livello API oggi. Non è una critica; è un segnale roadmap. Il valore attuale di V4 per i creator sta nei workflow long-context testo e tool-driven che avvolgono lo stack visivo, non dentro di esso.
Quando gli entry point multimodali atterrano, si piegheranno nel model picker OmniArt come hanno fatto GPT Image 2 e il resto. Fino ad allora, tratta V4 come il cervello che guida il brief.
Cosa fanno davvero i creator con V4 oggi
Tre pattern ripagano su OmniArt adesso.
1. Brand bible come contesto 1M token
Il contesto 1M tiene comodamente un brand book completo, ogni campagna pubblicata, la guida tone-of-voice, lo character sheet, la lista do-not-say e gli ultimi dodici mesi di copy post. Fissa tutto come contesto di sistema, poi chiedi a V4 di redigere un launch brief. L'output rispetta l'intero set di documenti senza un round-trip embeddings.
2. Generazione strutturata long-form
L'output è limitato a 384K token. È abbastanza per redigere un'intera narrative bible, uno storyboard a sei episodi con shot list o una spec di localizzazione da 50 pagine in un passaggio. Per lavoro più corto, V4-Flash a ~$0,28 per 1M token di output trasforma questo nel modo più economico affidabile per redigere contenuto strutturato long-form.
3. Agent tool-first che guidano lo stack visivo
La disciplina tool-call di V4 è la parte che conta quando lo colleghi a generatori immagine e video. Dagli la superficie API OmniArt, dagli un brief, e proporrà modello, prompt e riferimenti shot per shot. È il pattern attorno al quale OmniArt sta costruendo l'integrazione.
Scegliere tra V4-Flash e V4-Pro
Il rapporto prezzo è circa 12× — Flash per ideazione ad alto volume, Pro per le sessioni dove la profondità conta più del costo token.
| Lavoro | Scegli |
|---|---|
| Brainstorming, drafting, iterazione headline | V4-Flash |
| Reasoning brand-bible, costruzione narrativa | V4-Pro |
| Retrieval long-context su storico campagne | V4-Pro |
| Loop agent tool-driven che guidano immagine/video | V4-Pro per planning, V4-Flash per esecuzione |
Come V4 si colloca accanto al resto dello stack OmniArt
V4 non sostituisce i modelli immagine e video in OmniArt. È lo strato di planning sopra di essi. Il pattern che emerge:
| Layer | Lavoro | Modello |
|---|---|---|
| Plan | Brief, storyboard, shot list, reasoning brand | DeepSeek V4-Pro |
| Image | Still, frame di riferimento, layout | Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite |
| Video | Shot animati, sequenze multi-shot | V6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0 |
| Iterate | Restyle, extend, modify | Grok Imagine, Runway Gen-4.5 |
Note
Gli entry point multimodali per V4 sono sulla roadmap pubblicata di DeepSeek ma non ancora nel model picker OmniArt. Pubblicheremo un follow-up il giorno in cui atterrano — crediti, prompt consigliati e dove si collocano nello stack.
Cosa osservare nei prossimi due mesi
Tre segnali da tracciare.
- Entry point API multimodali. Quando DeepSeek li pubblica, la conversazione model picker si riapre.
- Varianti V4 distillate. Report precedenti segnalavano V4 Lite e una variante V4 più piccola. Entrambe potrebbero cambiare la superficie di costo per agent tool-call ad alto volume.
- Storia hardware. Il percorso inferenza Huawei Ascend-class conta per regioni dove i modelli solo CUDA sono più difficili da deployare.
Iniziare su OmniArt
DeepSeek V4 non è ancora un modello one-click nel picker OmniArt — la sua casa attuale è l'API. Se vuoi usarlo come layer di planning sopra OmniArt oggi, guidalo tramite l'endpoint compatibile OpenAI su api.deepseek.com e punta la superficie tool-call all'API OmniArt per generazione immagine e video.
Per lettura di background sul lato visivo dello stack, il confronto GPT Image 2 vs Nano Banana 2 copre la decisione flagship immagine, e la shortlist image-to-video copre le opzioni lato video che V4 guiderà eventualmente.