industryModelle und Einblicke4 min read
Journal · Modelle und Einblicke

DeepSeek V4 multimodal: Was Creator wissen müssen

DeepSeek V4: 1M-Token-Kontext, V4-Flash und V4-Pro, CSA+HCA-Architektur — was das für OmniArt-Creator in Bild- und Video-Stacks bedeutet.

OmniArt-Team·
DeepSeek V4 multimodal: Was Creator wissen müssen

DeepSeek V4 ist seit dem 24. April 2026 live — zwei Tiers, 1 Million Token Kontext, bis zu 384K Ausgabelänge. Es ist kein Videomodell und will keines ersetzen. Was V4 verändert, ist die Ebene über dem visuellen Stack: Brief, Storyboard, Brand Bible, Long-Context-Retrieval, das aus „Kampagne bauen“ „Kampagne bauen, die jeden Shoot dieses Jahres respektiert“ macht.

Was DeepSeek V4 ist

Zwei Produktionstiers — V4-Flash und V4-Pro — über eine OpenAI-kompatible API unter api.deepseek.com. Headline: 1M Token plus strukturierte Tool-Calls; darunter CSA (Compressed Sparse Attention) plus HCA (Heavy Compressed Attention), damit Kosten nicht linear mit Kontextlänge skalieren.

TierGesamt-ParameterAktive ParameterPre-Training-TokensOutput-PreisInput (Cache Miss)
V4-Flash284B13B32T¥2 / 1M (~$0,28)¥1 / 1M
V4-Pro1,6T49B33T¥24 / 1M (~$3,48)¥12 / 1M

Beide Tiers: Output-Cap 384K Token; „Thinking“ und „Non-Thinking“ aus demselben Modell — V4 vereint, was V3 und R1 getrennt hatten.

Architektur in einem Absatz

CSA grenzt Attention pro Layer auf wenige informationsreiche Token ein; HCA-Layer komprimieren darauf dicht. So wird 1M Kontext bezahlbar statt nur Benchmark-Trophäe. Training und Serving auf Huawei-Ascend-Klasse, nicht nur CUDA; Cambricon-vLLM für Inferenz.

Benchmarks

BenchmarkErgebnis
Arena.ai Open-Source CodeV4-Pro #3
Arena.ai OverallV4-Pro #14
Vals AI Vibe CodeV4 #1 unter Open-Weight
vs V3.2 Vibe Code~10× Sprung
vs Closed ModelsIn Szenarien vor Gemini 3.1 Pro

DeepSeek räumt ein: V4 „liegt bei komplexem Wissen und Reasoning noch etwa drei bis sechs Monate hinter den Top-Closed-Systemen“. Für die meisten Creator-Workflows bindet das selten.

V3, R1 und V4

FähigkeitV3R1V4
Kontext128K128K1M
Reasoning-ModusNeinJa (Default)Umschaltbar
Tool UseBegrenztBegrenztFirst-class
MultimodalNeinNeinRoadmap

Multimodal — was es bedeutet (noch nicht voll)

Die Launch-Botschaft unterverkauft Multimodal bewusst — keine veröffentlichten Bild-, Video- oder Audio-APIs heute. Wert für Creator liegt in Long-Context-Text und Tool-Workflows um den visuellen Stack, nicht darin.

Sobald Multimodal-Entry-Points landen, folgen sie dem OmniArt-Model-Picker wie GPT Image 2. Bis dahin: V4 als Gehirn für den Brief.

Drei Muster, die heute zählen

1. Brand Bibles als 1M-Token-Kontext

Vollständiges Brand Book, Kampagnen, Tone-of-Voice, Character Sheet, Do-not-say-Liste, zwölf Monate Post-Copy — alles als System-Kontext, dann Launch-Brief. Output respektiert das Gesamtpaket ohne Embedding-Roundtrip.

2. Long-form strukturiert

384K Output reichen für Narrative Bible, sechsteilige Storyboards mit Shot-Listen oder 50-seitige Lokalisierungsspecs. V4-Flash bei ~$0,28 pro 1M Output-Token: günstigster zuverlässiger Weg für lange strukturierte Entwürfe.

3. Tool-first Agents für den visuellen Stack

Tool-Call-Disziplin zählt, wenn Sie OmniArt-API anbinden: Modell, Prompt, Referenzen Shot für Shot — genau die Integration, die OmniArt baut.

V4-Flash vs V4-Pro

Preisverhältnis ~12× — Flash für Volumen-Ideation, Pro wenn Tiefe wichtiger ist als Token-Kosten.

JobWahl
Brainstorming, HeadlinesV4-Flash
Brand-Bible-Reasoning, NarrativeV4-Pro
Long-Context über KampagnenhistorieV4-Pro
Agent-Loops für Bild/VideoV4-Pro planen, V4-Flash ausführen

Einordnung im OmniArt-Stack

LayerJobModell
PlanBrief, Storyboard, Shot-ListeDeepSeek V4-Pro
BildStills, ReferenzframesNano Banana Pro, GPT Image 2, Seedream 5.0 Lite
VideoAnimation, Multi-ShotV6/BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0
IterierenRestyle, ExtendGrok Imagine, Runway Gen-4.5

Note

Multimodale V4-Entry-Points stehen auf DeepSeeks Roadmap, sind im OmniArt-Picker noch nicht live. Follow-up am Tag der Veröffentlichung — Credits, Prompts, Stack-Position.

Getting started

V4 ist noch kein One-Click im OmniArt-Picker — Heimat ist die API. Planning Layer: OpenAI-kompatibel unter api.deepseek.com, Tools auf OmniArt-API für Bild/Video.

Weiterlesen: GPT Image 2 vs Nano Banana 2, Beste Image-to-Video-Shortlist.

Start creating

Bereit zum Erstellen?

Starte mit KI die Erstellung beeindruckender Inhalte