industryModèles et analyses7 min read
Journal · Modèles et analyses

DeepSeek V4 multimodal : ce que les créateurs doivent savoir

DeepSeek V4 multimodal — contexte 1M tokens, tarifs V4-Flash et V4-Pro, architecture CSA + HCA, et impact pour les créateurs dans la stack OmniArt.

Équipe OmniArt·
DeepSeek V4 multimodal : ce que les créateurs doivent savoir

DeepSeek V4 est en ligne depuis le 24 avril 2026 avec deux paliers, un contexte d'un million de tokens et une longueur de sortie maximale de 384K. Ce n'est pas un modèle vidéo et il ne cherche pas à en remplacer un. Ce que V4 change réellement, c'est la couche au-dessus de la stack visuelle — le brief, le storyboard, la bible de marque, la récupération long contexte qui transforme « faire une campagne » en « faire une campagne qui respecte chaque tournage de l'année ». Cet article couvre ce qu'est DeepSeek V4, ce qu'il apporte aux créateurs OmniArt, et où il se place dans le reste du roster.

Ce qu'est DeepSeek V4

DeepSeek V4 est un modèle de raisonnement long contexte et d'appels d'outils avec deux paliers production — V4-Flash et V4-Pro — tous deux disponibles via une API compatible OpenAI sur api.deepseek.com. Le contexte 1M + les appels d'outils structurés font la une ; l'architecture sous-jacente combine attention sparse compressée (CSA) et attention compressée lourde (HCA), ce qui empêche le coût de croître linéairement avec la longueur du contexte.

PalierParams totauxParams actifsTokens pré-entraînementPrix sortiePrix entrée (cache miss)
V4-Flash284B13B32T¥2 / 1M tokens (~0,28 $)¥1 / 1M tokens
V4-Pro1,6T49B33T¥24 / 1M tokens (~3,48 $)¥12 / 1M tokens

Les deux paliers plafonnent la sortie à 384K tokens. Les deux servent les modes « thinking » et « non-thinking » depuis le même modèle — V4 unifie ce que V3 et R1 géraient séparément.

L'architecture en un paragraphe

Le point intéressant est CSA + HCA. L'attention sparse compressée réduit l'attention à un petit nombre de tokens à forte information par couche ; les couches d'attention compressée lourde ajoutent une compression dense par-dessus. C'est ce qui rend le contexte 1M abordable plutôt qu'un trophée de benchmark. DeepSeek entraîne et sert V4 sur une infrastructure de classe Huawei Ascend plutôt qu'une stack CUDA seule, avec l'adaptation vLLM de Cambricon pour l'optimisation d'inférence.

Benchmarks à citer

BenchmarkRésultat
Arena.ai open-source code arenaV4-Pro #3
Arena.ai overallV4-Pro #14
Vals AI Vibe Code BenchmarkV4 #1 parmi les modèles open-weight
Vibe Code vs V3.2~×10 en performance
Ensemble modèles fermésBat Gemini 3.1 Pro dans certains scénarios

Le message de DeepSeek est honnête sur l'écart : V4 « reste environ trois à six mois derrière les tout meilleurs systèmes fermés en connaissance complexe et raisonnement ». Pour la plupart des workflows créateurs, cet écart ne lie pas — mais il vaut la peine de le connaître.

Ce qui a changé entre V3, R1 et V4

V3 était un solide modèle texte et code. R1 était un modèle de raisonnement chaîne de pensée. V4 unifie les deux modes sous un seul modèle avec chemins d'inférence thinking et non-thinking sélectionnables. Le contexte est passé de 128K (V3) à 1M (V4). L'usage d'outils et la récupération long contexte sont devenus de première classe au lieu d'être patchés.

CapacitéV3R1V4
Contexte128K128K1M
Mode raisonnementNonOui (défaut)Activable
OutilsLimitéLimitéPremière classe
MultimodalNonNonFeuille de route (en cours)

Ce que « multimodal » signifie ici — et ce que ce n'est pas (encore)

DeepSeek a volontairement sous-vendu la partie multimodale au lancement. La release décrit la matrice multimodale comme « en évolution continue » — il n'y a pas aujourd'hui de points d'entrée image, vidéo ou audio publiés au niveau API. Ce n'est pas une critique ; c'est un signal de feuille de route. La valeur actuelle de V4 pour les créateurs est dans le texte long contexte et les workflows pilotés par outils qui enveloppent la stack visuelle, pas à l'intérieur.

Quand les entrées multimodales arriveront, elles rejoindront le sélecteur de modèles OmniArt comme GPT Image 2 et les autres. En attendant, traitez V4 comme le cerveau qui pilote le brief.

Ce que les créateurs font réellement avec V4 aujourd'hui

Trois patterns tiennent la route sur OmniArt.

1. Bibles de marque en contexte 1M tokens

Le contexte 1M tient confortablement une bible de marque complète, chaque campagne publiée, le guide de ton, la fiche personnage, la liste des interdits et douze mois de copy post. Épinglez tout en contexte système, puis demandez à V4 de rédiger un brief de lancement. La sortie respecte l'ensemble documentaire sans passage par des embeddings.

2. Génération structurée long format

La sortie est plafonnée à 384K tokens — assez pour une bible narrative entière, un storyboard six épisodes avec shot lists, ou une spec de localisation de 50 pages en une passe. Pour le travail plus court, V4-Flash à ~0,28 $ par million de tokens de sortie en fait le moyen le moins cher de rédiger du contenu structuré long format.

3. Agents outils-first qui pilotent la stack visuelle

La discipline d'appels d'outils de V4 compte quand vous le branchez aux générateurs image et vidéo. Donnez-lui la surface API OmniArt, un brief, et il proposera modèle, prompt et références plan par plan. C'est le pattern autour duquel OmniArt construit l'intégration.

Choisir entre V4-Flash et V4-Pro

Le ratio de prix est d'environ ×12 — Flash pour l'idéation à volume, Pro pour les sessions où la profondeur compte plus que le coût token.

JobChoix
Brainstorming, rédaction, itération de titresV4-Flash
Raisonnement bible de marque, construction narrativeV4-Pro
Récupération long contexte sur l'historique campagnesV4-Pro
Boucles agent qui pilotent image/vidéoV4-Pro pour planifier, V4-Flash pour exécuter

Comment V4 s'intègre à la stack OmniArt

V4 ne remplace pas les modèles image et vidéo d'OmniArt. C'est la couche de planification au-dessus. Le pattern qui émerge :

CoucheJobModèle
PlanBrief, storyboard, shot list, raisonnement marqueDeepSeek V4-Pro
ImageStills, frames de référence, mise en pageNano Banana Pro, GPT Image 2, Seedream 5.0 Lite
VidéoPlans animés, séquences multi-plansV6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0
ItérerRestyle, extend, modifyGrok Imagine, Runway Gen-4.5

Note

Les entrées multimodales de V4 sont sur la feuille de route publiée de DeepSeek mais pas encore dans le sélecteur OmniArt. Nous publierons un suivi le jour où elles arrivent — crédits, prompts recommandés et place dans la stack.

À surveiller

Trois signaux sur les deux prochains mois.

  • Points d'entrée API multimodaux. Quand DeepSeek les publie, la conversation sélecteur rouvre.
  • Variantes V4 distillées. Des rapports antérieurs mentionnaient V4 Lite et une variante plus petite. Les deux pourraient changer la surface de coût des agents à appels d'outils à volume.
  • Histoire hardware. Le chemin d'inférence Ascend de Huawei compte pour les régions où les modèles CUDA-only sont plus difficiles à déployer.

Commencer sur OmniArt

DeepSeek V4 n'est pas encore un modèle en un clic dans le sélecteur OmniArt — sa maison actuelle est l'API. Pour l'utiliser comme couche de planification au-dessus d'OmniArt, passez par le endpoint compatible OpenAI sur api.deepseek.com et pointez ses appels d'outils vers l'API OmniArt pour la génération image et vidéo.

Pour le côté visuel de la stack, le comparatif GPT Image 2 vs Nano Banana 2 couvre le choix image phare, et la shortlist image-vers-vidéo les options vidéo que V4 finira par piloter.

Start creating

Prêt à créer ?

Commencez à générer du contenu incroyable avec l’IA