DeepSeek V4 multimodal: yang perlu diketahui kreator
DeepSeek V4 multimodal — konteks 1M token, harga V4-Flash dan V4-Pro, arsitektur CSA + HCA, dan artinya di stack OmniArt.

DeepSeek V4 rilis 24 April 2026 dengan dua tier, konteks 1 juta token, dan output maksimum 384K. Ini bukan model video dan tidak menggantikan model video. Yang V4 ubah adalah lapisan di atas stack visual — brief, storyboard, brand bible, retrieval konteks panjang yang mengubah «buat kampanye» menjadi «buat kampanye yang menghormati setiap syuting tahun ini». Artikel ini membahas apa itu DeepSeek V4, nilainya bagi kreator OmniArt, dan posisinya di roster.
Apa itu DeepSeek V4
DeepSeek V4 adalah model penalaran konteks panjang dan tool-use dengan dua tier produksi — V4-Flash dan V4-Pro — via API kompatibel OpenAI di api.deepseek.com. Headline: konteks 1M plus tool call terstruktur; di bawahnya CSA (compressed sparse attention) plus HCA agar biaya tidak naik linear dengan panjang konteks.
| Tier | Total params | Aktif | Token pre-train | Harga output | Input (cache miss) |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | 32T | ¥2 / 1M (~$0.28) | ¥1 / 1M |
| V4-Pro | 1.6T | 49B | 33T | ¥24 / 1M (~$3.48) | ¥12 / 1M |
Keduanya membatasi output 384K token dan menawarkan mode «thinking» dan «non-thinking» dalam satu model — menyatukan peran V3 dan R1.
Arsitektur dalam satu paragraf
CSA mempersempit perhatian ke sedikit token informasi tinggi per layer; HCA menambahkan kompresi padat di atasnya. Kombinasi itu membuat konteks 1M terjangkau. DeepSeek melatih dan melayani V4 di infrastruktur kelas Huawei Ascend, bukan hanya CUDA.
Benchmark yang layak dikutip
| Benchmark | Hasil |
|---|---|
| Arena.ai open source code | V4-Pro #3 |
| Arena.ai keseluruhan | V4-Pro #14 |
| Vals AI Vibe Code | V4 #1 open-weight |
| Vibe Code vs V3.2 | ~10× lonjakan |
| vs model tertutup | Mengalahkan Gemini 3.1 Pro di skenario tertentu |
DeepSeek mengakui celah: V4 «masih ~3–6 bulan di belakang sistem tertutup teratas untuk pengetahuan dan penalaran kompleks».
Perubahan V3, R1, V4
| Kapabilitas | V3 | R1 | V4 |
|---|---|---|---|
| Konteks | 128K | 128K | 1M |
| Mode penalaran | Tidak | Ya (default) | Bisa dialihkan |
| Tool use | Terbatas | Terbatas | Kelas satu |
| Multimodal | Tidak | Tidak | Roadmap |
Multimodal di sini — dan yang belum
Tidak ada endpoint API publik gambar/video/audio hari ini. Nilai saat ini ada di teks panjang dan alur berbasis tool yang membungkus stack visual. Saat entry multimodal mendarat, masuk ke pemilih OmniArt seperti GPT Image 2. Sementara itu, V4 adalah otak brief.
Tiga pola yang berfungsi di OmniArt
1. Brand bible sebagai konteks 1M
Muat buku merek, kampanye, tone, lembar karakter, daftar larangan, dan copy 12 bulan. Sematkan sebagai konteks sistem, minta brief peluncuran tanpa putaran embedding.
2. Generasi terstruktur panjang
Hingga 384K output — bible naratif, storyboard enam episode, atau spesifikasi lokalisasi 50 halaman dalam satu pass. V4-Flash ~$0,28 per 1M output untuk draf panjang murah.
3. Agen tool-first yang menggerakkan stack visual
Tool call penting saat menghubungkan generator gambar dan video: brief → model, prompt, referensi per shot.
V4-Flash vs V4-Pro
Rasio harga ~12× — Flash untuk ideasi massal, Pro saat kedalaman lebih penting dari biaya token.
V4 di stack OmniArt
| Lapisan | Pekerjaan | Model |
|---|---|---|
| Plan | Brief, storyboard, daftar shot | DeepSeek V4-Pro |
| Image | Still, frame, layout | Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite |
| Video | Shot animasi, multi-shot | V6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0 |
| Iterate | Restyle, perpanjang | Grok Imagine, Runway Gen-4.5 |
Note
Entry multimodal V4 ada di roadmap DeepSeek tetapi belum di pemilih OmniArt. Kami akan memperbarui saat tersedia.
Mulai di OmniArt
V4 belum satu klik di OmniArt — hidup di API. Hubungkan api.deepseek.com dan arahkan tool ke API OmniArt untuk gambar dan video.
Bacaan visual: GPT Image 2 vs Nano Banana 2 dan image-to-video terbaik 2026.