industryModel dan insight4 menit baca

DeepSeek V4 multimodal: yang perlu diketahui kreator

DeepSeek V4 multimodal — konteks 1M token, harga V4-Flash dan V4-Pro, arsitektur CSA + HCA, dan artinya di stack OmniArt.

Tim OmniArt3 Mei 2026

DeepSeek V4 rilis 24 April 2026 dengan dua tier, konteks 1 juta token, dan output maksimum 384K. Ini bukan model video dan tidak menggantikan model video. Yang V4 ubah adalah lapisan di atas stack visual — brief, storyboard, brand bible, retrieval konteks panjang yang mengubah «buat kampanye» menjadi «buat kampanye yang menghormati setiap syuting tahun ini». Artikel ini membahas apa itu DeepSeek V4, nilainya bagi kreator OmniArt, dan posisinya di roster.

Apa itu DeepSeek V4

DeepSeek V4 adalah model penalaran konteks panjang dan tool-use dengan dua tier produksi — V4-Flash dan V4-Pro — via API kompatibel OpenAI di api.deepseek.com. Headline: konteks 1M plus tool call terstruktur; di bawahnya CSA (compressed sparse attention) plus HCA agar biaya tidak naik linear dengan panjang konteks.

Tier	Total params	Aktif	Token pre-train	Harga output	Input (cache miss)
V4-Flash	284B	13B	32T	¥2 / 1M (~$0.28)	¥1 / 1M
V4-Pro	1.6T	49B	33T	¥24 / 1M (~$3.48)	¥12 / 1M

Keduanya membatasi output 384K token dan menawarkan mode «thinking» dan «non-thinking» dalam satu model — menyatukan peran V3 dan R1.

Arsitektur dalam satu paragraf

CSA mempersempit perhatian ke sedikit token informasi tinggi per layer; HCA menambahkan kompresi padat di atasnya. Kombinasi itu membuat konteks 1M terjangkau. DeepSeek melatih dan melayani V4 di infrastruktur kelas Huawei Ascend, bukan hanya CUDA.

Benchmark yang layak dikutip

Benchmark	Hasil
Arena.ai open source code	V4-Pro #3
Arena.ai keseluruhan	V4-Pro #14
Vals AI Vibe Code	V4 #1 open-weight
Vibe Code vs V3.2	~10× lonjakan
vs model tertutup	Mengalahkan Gemini 3.1 Pro di skenario tertentu

DeepSeek mengakui celah: V4 «masih ~3–6 bulan di belakang sistem tertutup teratas untuk pengetahuan dan penalaran kompleks».

Perubahan V3, R1, V4

Kapabilitas	V3	R1	V4
Konteks	128K	128K	1M
Mode penalaran	Tidak	Ya (default)	Bisa dialihkan
Tool use	Terbatas	Terbatas	Kelas satu
Multimodal	Tidak	Tidak	Roadmap

Multimodal di sini — dan yang belum

Tidak ada endpoint API publik gambar/video/audio hari ini. Nilai saat ini ada di teks panjang dan alur berbasis tool yang membungkus stack visual. Saat entry multimodal mendarat, masuk ke pemilih OmniArt seperti GPT Image 2. Sementara itu, V4 adalah otak brief.

Tiga pola yang berfungsi di OmniArt

1. Brand bible sebagai konteks 1M

Muat buku merek, kampanye, tone, lembar karakter, daftar larangan, dan copy 12 bulan. Sematkan sebagai konteks sistem, minta brief peluncuran tanpa putaran embedding.

2. Generasi terstruktur panjang

Hingga 384K output — bible naratif, storyboard enam episode, atau spesifikasi lokalisasi 50 halaman dalam satu pass. V4-Flash ~$0,28 per 1M output untuk draf panjang murah.

3. Agen tool-first yang menggerakkan stack visual

Tool call penting saat menghubungkan generator gambar dan video: brief → model, prompt, referensi per shot.

V4-Flash vs V4-Pro

Rasio harga ~12× — Flash untuk ideasi massal, Pro saat kedalaman lebih penting dari biaya token.

V4 di stack OmniArt

Lapisan	Pekerjaan	Model
Plan	Brief, storyboard, daftar shot	DeepSeek V4-Pro
Image	Still, frame, layout	Nano Banana Pro, GPT Image 2, Seedream 5.0 Lite
Video	Shot animasi, multi-shot	V6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0
Iterate	Restyle, perpanjang	Grok Imagine, Runway Gen-4.5

Catatan

Entry multimodal V4 ada di roadmap DeepSeek tetapi belum di pemilih OmniArt. Kami akan memperbarui saat tersedia.

Mulai di OmniArt

V4 belum satu klik di OmniArt — hidup di API. Hubungkan api.deepseek.com dan arahkan tool ke API OmniArt untuk gambar dan video.

Bacaan visual: GPT Image 2 vs Nano Banana 2 dan image-to-video terbaik 2026.

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI

Mulai gratis