industryModel dan insight4 min read
Journal · Model dan insight

DeepSeek V4 multimodal: yang perlu diketahui kreator

DeepSeek V4 multimodal — konteks 1M token, harga V4-Flash dan V4-Pro, arsitektur CSA + HCA, dan artinya di stack OmniArt.

Tim OmniArt·
DeepSeek V4 multimodal: yang perlu diketahui kreator

DeepSeek V4 rilis 24 April 2026 dengan dua tier, konteks 1 juta token, dan output maksimum 384K. Ini bukan model video dan tidak menggantikan model video. Yang V4 ubah adalah lapisan di atas stack visual — brief, storyboard, brand bible, retrieval konteks panjang yang mengubah «buat kampanye» menjadi «buat kampanye yang menghormati setiap syuting tahun ini». Artikel ini membahas apa itu DeepSeek V4, nilainya bagi kreator OmniArt, dan posisinya di roster.

Apa itu DeepSeek V4

DeepSeek V4 adalah model penalaran konteks panjang dan tool-use dengan dua tier produksi — V4-Flash dan V4-Pro — via API kompatibel OpenAI di api.deepseek.com. Headline: konteks 1M plus tool call terstruktur; di bawahnya CSA (compressed sparse attention) plus HCA agar biaya tidak naik linear dengan panjang konteks.

TierTotal paramsAktifToken pre-trainHarga outputInput (cache miss)
V4-Flash284B13B32T¥2 / 1M (~$0.28)¥1 / 1M
V4-Pro1.6T49B33T¥24 / 1M (~$3.48)¥12 / 1M

Keduanya membatasi output 384K token dan menawarkan mode «thinking» dan «non-thinking» dalam satu model — menyatukan peran V3 dan R1.

Arsitektur dalam satu paragraf

CSA mempersempit perhatian ke sedikit token informasi tinggi per layer; HCA menambahkan kompresi padat di atasnya. Kombinasi itu membuat konteks 1M terjangkau. DeepSeek melatih dan melayani V4 di infrastruktur kelas Huawei Ascend, bukan hanya CUDA.

Benchmark yang layak dikutip

BenchmarkHasil
Arena.ai open source codeV4-Pro #3
Arena.ai keseluruhanV4-Pro #14
Vals AI Vibe CodeV4 #1 open-weight
Vibe Code vs V3.2~10× lonjakan
vs model tertutupMengalahkan Gemini 3.1 Pro di skenario tertentu

DeepSeek mengakui celah: V4 «masih ~3–6 bulan di belakang sistem tertutup teratas untuk pengetahuan dan penalaran kompleks».

Perubahan V3, R1, V4

KapabilitasV3R1V4
Konteks128K128K1M
Mode penalaranTidakYa (default)Bisa dialihkan
Tool useTerbatasTerbatasKelas satu
MultimodalTidakTidakRoadmap

Multimodal di sini — dan yang belum

Tidak ada endpoint API publik gambar/video/audio hari ini. Nilai saat ini ada di teks panjang dan alur berbasis tool yang membungkus stack visual. Saat entry multimodal mendarat, masuk ke pemilih OmniArt seperti GPT Image 2. Sementara itu, V4 adalah otak brief.

Tiga pola yang berfungsi di OmniArt

1. Brand bible sebagai konteks 1M

Muat buku merek, kampanye, tone, lembar karakter, daftar larangan, dan copy 12 bulan. Sematkan sebagai konteks sistem, minta brief peluncuran tanpa putaran embedding.

2. Generasi terstruktur panjang

Hingga 384K output — bible naratif, storyboard enam episode, atau spesifikasi lokalisasi 50 halaman dalam satu pass. V4-Flash ~$0,28 per 1M output untuk draf panjang murah.

3. Agen tool-first yang menggerakkan stack visual

Tool call penting saat menghubungkan generator gambar dan video: brief → model, prompt, referensi per shot.

V4-Flash vs V4-Pro

Rasio harga ~12× — Flash untuk ideasi massal, Pro saat kedalaman lebih penting dari biaya token.

V4 di stack OmniArt

LapisanPekerjaanModel
PlanBrief, storyboard, daftar shotDeepSeek V4-Pro
ImageStill, frame, layoutNano Banana Pro, GPT Image 2, Seedream 5.0 Lite
VideoShot animasi, multi-shotV6 / BACH, Sora 2, Veo 3, Seedance 2.0, HappyHorse 1.0
IterateRestyle, perpanjangGrok Imagine, Runway Gen-4.5

Note

Entry multimodal V4 ada di roadmap DeepSeek tetapi belum di pemilih OmniArt. Kami akan memperbarui saat tersedia.

Mulai di OmniArt

V4 belum satu klik di OmniArt — hidup di API. Hubungkan api.deepseek.com dan arahkan tool ke API OmniArt untuk gambar dan video.

Bacaan visual: GPT Image 2 vs Nano Banana 2 dan image-to-video terbaik 2026.

Start creating

Siap membuat?

Mulai hasilkan konten menakjubkan dengan AI