DeepSeek V4 multimodal: Was Creator wissen müssen
DeepSeek V4: 1M-Token-Kontext, V4-Flash und V4-Pro, CSA+HCA-Architektur — was das für OmniArt-Creator in Bild- und Video-Stacks bedeutet.

DeepSeek V4 ist seit dem 24. April 2026 live — zwei Tiers, 1 Million Token Kontext, bis zu 384K Ausgabelänge. Es ist kein Videomodell und will keines ersetzen. Was V4 verändert, ist die Ebene über dem visuellen Stack: Brief, Storyboard, Brand Bible, Long-Context-Retrieval, das aus „Kampagne bauen“ „Kampagne bauen, die jeden Shoot dieses Jahres respektiert“ macht.
Was DeepSeek V4 ist
Zwei Produktionstiers — V4-Flash und V4-Pro — über eine OpenAI-kompatible API unter api.deepseek.com. Headline: 1M Token plus strukturierte Tool-Calls; darunter CSA (Compressed Sparse Attention) plus HCA (Heavy Compressed Attention), damit Kosten nicht linear mit Kontextlänge skalieren.
| Tier | Gesamt-Parameter | Aktive Parameter | Pre-Training-Tokens | Output-Preis | Input (Cache Miss) |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | 32T | ¥2 / 1M (~$0,28) | ¥1 / 1M |
| V4-Pro | 1,6T | 49B | 33T | ¥24 / 1M (~$3,48) | ¥12 / 1M |
Beide Tiers: Output-Cap 384K Token; „Thinking“ und „Non-Thinking“ aus demselben Modell — V4 vereint, was V3 und R1 getrennt hatten.
Architektur in einem Absatz
CSA grenzt Attention pro Layer auf wenige informationsreiche Token ein; HCA-Layer komprimieren darauf dicht. So wird 1M Kontext bezahlbar statt nur Benchmark-Trophäe. Training und Serving auf Huawei-Ascend-Klasse, nicht nur CUDA; Cambricon-vLLM für Inferenz.
Benchmarks
| Benchmark | Ergebnis |
|---|---|
| Arena.ai Open-Source Code | V4-Pro #3 |
| Arena.ai Overall | V4-Pro #14 |
| Vals AI Vibe Code | V4 #1 unter Open-Weight |
| vs V3.2 Vibe Code | ~10× Sprung |
| vs Closed Models | In Szenarien vor Gemini 3.1 Pro |
DeepSeek räumt ein: V4 „liegt bei komplexem Wissen und Reasoning noch etwa drei bis sechs Monate hinter den Top-Closed-Systemen“. Für die meisten Creator-Workflows bindet das selten.
V3, R1 und V4
| Fähigkeit | V3 | R1 | V4 |
|---|---|---|---|
| Kontext | 128K | 128K | 1M |
| Reasoning-Modus | Nein | Ja (Default) | Umschaltbar |
| Tool Use | Begrenzt | Begrenzt | First-class |
| Multimodal | Nein | Nein | Roadmap |
Multimodal — was es bedeutet (noch nicht voll)
Die Launch-Botschaft unterverkauft Multimodal bewusst — keine veröffentlichten Bild-, Video- oder Audio-APIs heute. Wert für Creator liegt in Long-Context-Text und Tool-Workflows um den visuellen Stack, nicht darin.
Sobald Multimodal-Entry-Points landen, folgen sie dem OmniArt-Model-Picker wie GPT Image 2. Bis dahin: V4 als Gehirn für den Brief.
Drei Muster, die heute zählen
1. Brand Bibles als 1M-Token-Kontext
Vollständiges Brand Book, Kampagnen, Tone-of-Voice, Character Sheet, Do-not-say-Liste, zwölf Monate Post-Copy — alles als System-Kontext, dann Launch-Brief. Output respektiert das Gesamtpaket ohne Embedding-Roundtrip.
2. Long-form strukturiert
384K Output reichen für Narrative Bible, sechsteilige Storyboards mit Shot-Listen oder 50-seitige Lokalisierungsspecs. V4-Flash bei ~$0,28 pro 1M Output-Token: günstigster zuverlässiger Weg für lange strukturierte Entwürfe.
3. Tool-first Agents für den visuellen Stack
Tool-Call-Disziplin zählt, wenn Sie OmniArt-API anbinden: Modell, Prompt, Referenzen Shot für Shot — genau die Integration, die OmniArt baut.
V4-Flash vs V4-Pro
Preisverhältnis ~12× — Flash für Volumen-Ideation, Pro wenn Tiefe wichtiger ist als Token-Kosten.
| Job | Wahl |
|---|---|
| Brainstorming, Headlines | V4-Flash |
| Brand-Bible-Reasoning, Narrative | V4-Pro |
| Long-Context über Kampagnenhistorie | V4-Pro |
| Agent-Loops für Bild/Video | V4-Pro planen, V4-Flash ausführen |
Einordnung im OmniArt-Stack
| Layer | Job | Modell |
|---|---|---|
| Plan | Brief, Storyboard, Shot-Liste | DeepSeek V4-Pro |
| Bild | Stills, Referenzframes | Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite |
| Video | Animation, Multi-Shot | V6/BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0 |
| Iterieren | Restyle, Extend | Grok Imagine, Runway Gen-4.5 |
Note
Multimodale V4-Entry-Points stehen auf DeepSeeks Roadmap, sind im OmniArt-Picker noch nicht live. Follow-up am Tag der Veröffentlichung — Credits, Prompts, Stack-Position.
Getting started
V4 ist noch kein One-Click im OmniArt-Picker — Heimat ist die API. Planning Layer: OpenAI-kompatibel unter api.deepseek.com, Tools auf OmniArt-API für Bild/Video.
Weiterlesen: GPT Image 2 vs Nano Banana 2, Beste Image-to-Video-Shortlist.