DeepSeek V4 multimodal : ce que les créateurs doivent savoir
DeepSeek V4 multimodal — contexte 1M tokens, tarifs V4-Flash et V4-Pro, architecture CSA + HCA, et impact pour les créateurs dans la stack OmniArt.

DeepSeek V4 est en ligne depuis le 24 avril 2026 avec deux paliers, un contexte d'un million de tokens et une longueur de sortie maximale de 384K. Ce n'est pas un modèle vidéo et il ne cherche pas à en remplacer un. Ce que V4 change réellement, c'est la couche au-dessus de la stack visuelle — le brief, le storyboard, la bible de marque, la récupération long contexte qui transforme « faire une campagne » en « faire une campagne qui respecte chaque tournage de l'année ». Cet article couvre ce qu'est DeepSeek V4, ce qu'il apporte aux créateurs OmniArt, et où il se place dans le reste du roster.
Ce qu'est DeepSeek V4
DeepSeek V4 est un modèle de raisonnement long contexte et d'appels d'outils avec deux paliers production — V4-Flash et V4-Pro — tous deux disponibles via une API compatible OpenAI sur api.deepseek.com. Le contexte 1M + les appels d'outils structurés font la une ; l'architecture sous-jacente combine attention sparse compressée (CSA) et attention compressée lourde (HCA), ce qui empêche le coût de croître linéairement avec la longueur du contexte.
| Palier | Params totaux | Params actifs | Tokens pré-entraînement | Prix sortie | Prix entrée (cache miss) |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | 32T | ¥2 / 1M tokens (~0,28 $) | ¥1 / 1M tokens |
| V4-Pro | 1,6T | 49B | 33T | ¥24 / 1M tokens (~3,48 $) | ¥12 / 1M tokens |
Les deux paliers plafonnent la sortie à 384K tokens. Les deux servent les modes « thinking » et « non-thinking » depuis le même modèle — V4 unifie ce que V3 et R1 géraient séparément.
L'architecture en un paragraphe
Le point intéressant est CSA + HCA. L'attention sparse compressée réduit l'attention à un petit nombre de tokens à forte information par couche ; les couches d'attention compressée lourde ajoutent une compression dense par-dessus. C'est ce qui rend le contexte 1M abordable plutôt qu'un trophée de benchmark. DeepSeek entraîne et sert V4 sur une infrastructure de classe Huawei Ascend plutôt qu'une stack CUDA seule, avec l'adaptation vLLM de Cambricon pour l'optimisation d'inférence.
Benchmarks à citer
| Benchmark | Résultat |
|---|---|
| Arena.ai open-source code arena | V4-Pro #3 |
| Arena.ai overall | V4-Pro #14 |
| Vals AI Vibe Code Benchmark | V4 #1 parmi les modèles open-weight |
| Vibe Code vs V3.2 | ~×10 en performance |
| Ensemble modèles fermés | Bat Gemini 3.1 Pro dans certains scénarios |
Le message de DeepSeek est honnête sur l'écart : V4 « reste environ trois à six mois derrière les tout meilleurs systèmes fermés en connaissance complexe et raisonnement ». Pour la plupart des workflows créateurs, cet écart ne lie pas — mais il vaut la peine de le connaître.
Ce qui a changé entre V3, R1 et V4
V3 était un solide modèle texte et code. R1 était un modèle de raisonnement chaîne de pensée. V4 unifie les deux modes sous un seul modèle avec chemins d'inférence thinking et non-thinking sélectionnables. Le contexte est passé de 128K (V3) à 1M (V4). L'usage d'outils et la récupération long contexte sont devenus de première classe au lieu d'être patchés.
| Capacité | V3 | R1 | V4 |
|---|---|---|---|
| Contexte | 128K | 128K | 1M |
| Mode raisonnement | Non | Oui (défaut) | Activable |
| Outils | Limité | Limité | Première classe |
| Multimodal | Non | Non | Feuille de route (en cours) |
Ce que « multimodal » signifie ici — et ce que ce n'est pas (encore)
DeepSeek a volontairement sous-vendu la partie multimodale au lancement. La release décrit la matrice multimodale comme « en évolution continue » — il n'y a pas aujourd'hui de points d'entrée image, vidéo ou audio publiés au niveau API. Ce n'est pas une critique ; c'est un signal de feuille de route. La valeur actuelle de V4 pour les créateurs est dans le texte long contexte et les workflows pilotés par outils qui enveloppent la stack visuelle, pas à l'intérieur.
Quand les entrées multimodales arriveront, elles rejoindront le sélecteur de modèles OmniArt comme GPT Image 2 et les autres. En attendant, traitez V4 comme le cerveau qui pilote le brief.
Ce que les créateurs font réellement avec V4 aujourd'hui
Trois patterns tiennent la route sur OmniArt.
1. Bibles de marque en contexte 1M tokens
Le contexte 1M tient confortablement une bible de marque complète, chaque campagne publiée, le guide de ton, la fiche personnage, la liste des interdits et douze mois de copy post. Épinglez tout en contexte système, puis demandez à V4 de rédiger un brief de lancement. La sortie respecte l'ensemble documentaire sans passage par des embeddings.
2. Génération structurée long format
La sortie est plafonnée à 384K tokens — assez pour une bible narrative entière, un storyboard six épisodes avec shot lists, ou une spec de localisation de 50 pages en une passe. Pour le travail plus court, V4-Flash à ~0,28 $ par million de tokens de sortie en fait le moyen le moins cher de rédiger du contenu structuré long format.
3. Agents outils-first qui pilotent la stack visuelle
La discipline d'appels d'outils de V4 compte quand vous le branchez aux générateurs image et vidéo. Donnez-lui la surface API OmniArt, un brief, et il proposera modèle, prompt et références plan par plan. C'est le pattern autour duquel OmniArt construit l'intégration.
Choisir entre V4-Flash et V4-Pro
Le ratio de prix est d'environ ×12 — Flash pour l'idéation à volume, Pro pour les sessions où la profondeur compte plus que le coût token.
| Job | Choix |
|---|---|
| Brainstorming, rédaction, itération de titres | V4-Flash |
| Raisonnement bible de marque, construction narrative | V4-Pro |
| Récupération long contexte sur l'historique campagnes | V4-Pro |
| Boucles agent qui pilotent image/vidéo | V4-Pro pour planifier, V4-Flash pour exécuter |
Comment V4 s'intègre à la stack OmniArt
V4 ne remplace pas les modèles image et vidéo d'OmniArt. C'est la couche de planification au-dessus. Le pattern qui émerge :
| Couche | Job | Modèle |
|---|---|---|
| Plan | Brief, storyboard, shot list, raisonnement marque | DeepSeek V4-Pro |
| Image | Stills, frames de référence, mise en page | Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite |
| Vidéo | Plans animés, séquences multi-plans | V6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0 |
| Itérer | Restyle, extend, modify | Grok Imagine, Runway Gen-4.5 |
Note
Les entrées multimodales de V4 sont sur la feuille de route publiée de DeepSeek mais pas encore dans le sélecteur OmniArt. Nous publierons un suivi le jour où elles arrivent — crédits, prompts recommandés et place dans la stack.
À surveiller
Trois signaux sur les deux prochains mois.
- Points d'entrée API multimodaux. Quand DeepSeek les publie, la conversation sélecteur rouvre.
- Variantes V4 distillées. Des rapports antérieurs mentionnaient V4 Lite et une variante plus petite. Les deux pourraient changer la surface de coût des agents à appels d'outils à volume.
- Histoire hardware. Le chemin d'inférence Ascend de Huawei compte pour les régions où les modèles CUDA-only sont plus difficiles à déployer.
Commencer sur OmniArt
DeepSeek V4 n'est pas encore un modèle en un clic dans le sélecteur OmniArt — sa maison actuelle est l'API. Pour l'utiliser comme couche de planification au-dessus d'OmniArt, passez par le endpoint compatible OpenAI sur api.deepseek.com et pointez ses appels d'outils vers l'API OmniArt pour la génération image et vidéo.
Pour le côté visuel de la stack, le comparatif GPT Image 2 vs Nano Banana 2 couvre le choix image phare, et la shortlist image-vers-vidéo les options vidéo que V4 finira par piloter.