DeepSeek V4 多模态：创作者必读的能力清单

DeepSeek V4 多模态预览：1M token 上下文、V4-Flash 与 V4-Pro 定价、CSA + HCA 架构，以及它在 OmniArt 工作流中的位置。

OmniArt 团队·2026-05-03

DeepSeek V4 已于 2026 年 4 月 24 日上线，提供两档版本、100 万 token 上下文和最长 384K 的输出长度。它不是视频模型，也不打算去替代某个视频模型。V4 真正改变的，是视觉栈之上的那一层 —— 创意 brief、分镜、品牌手册，以及把"做一场 campaign"升级为"做一场尊重今年所有拍摄成果的 campaign"所需的长上下文检索。本文会拆解 DeepSeek V4 是什么、它能给 OmniArt 创作者带来什么，以及它在整个模型阵容里的位置。

DeepSeek V4 是什么

DeepSeek V4 是一个长上下文推理与工具调用模型，提供两个生产档位 —— V4-Flash 和 V4-Pro —— 都通过 OpenAI 兼容 API（api.deepseek.com）开放。1M token 上下文加上结构化工具调用是头条卖点；底层架构使用了压缩稀疏注意力（CSA）加重型压缩注意力（HCA），这正是它能让成本不随上下文长度线性膨胀的关键。

档位	总参数	激活参数	预训练 token	输出价格	输入价格（缓存未命中）
V4-Flash	284B	13B	32T	¥2 / 1M tokens (~$0.28)	¥1 / 1M tokens
V4-Pro	1.6T	49B	33T	¥24 / 1M tokens (~$3.48)	¥12 / 1M tokens

两档的输出上限都是 384K token。两档都从同一个模型里同时提供"思考"与"非思考"两种模式 —— V4 把过去 V3 与 R1 分别承担的能力统一了起来。

一段话讲清架构

真正有意思的是 CSA + HCA。压缩稀疏注意力会在每一层把注意力收敛到少量高信息 token 上；重型压缩注意力则在此之上叠加密集压缩。两者结合，让 1M 上下文从一个跑分奖杯变成一个能负担得起的能力。DeepSeek 在华为昇腾（Huawei Ascend）级别的基础设施上训练并部署 V4，而非纯 CUDA 栈，推理优化由 Cambricon 适配的 vLLM 承担。

值得引用的几项基准

基准	结果
Arena.ai 开源代码竞技场	V4-Pro 第 3
Arena.ai 综合榜	V4-Pro 第 14
Vals AI Vibe Code Benchmark	V4 在开源权重模型中第 1
Vibe Code 对比 V3.2	性能跃升约 10 倍
闭源对手集	在部分场景下击败 Gemini 3.1 Pro

DeepSeek 自己对差距的描述也很直白：V4"在复杂知识与推理能力上仍落后最顶级的闭源系统大约三到六个月"。对大多数创作者工作流来说，这个差距并不构成约束 —— 但知道它存在是有价值的。

V3、R1 和 V4 之间发生了什么变化

V3 是一个强力的文本与代码模型。R1 是一个思维链推理模型。V4 把两种模式统一在同一个模型下，提供可切换的思考与非思考推理路径。上下文从 V3 的 128K 扩展到 V4 的 1M。工具使用与长上下文检索从打补丁升级为一等公民。

能力	V3	R1	V4
上下文	128K	128K	1M
推理模式	无	有（默认）	可切换
工具使用	受限	受限	一等公民
多模态	无	无	路线图（推进中）

这里说的"多模态"是什么 —— 以及它暂时还不是什么

DeepSeek 在 V4 发布时刻意低调处理了多模态部分。发布稿把多模态能力矩阵描述为"持续演进中"—— 目前在 API 层并没有公开的图像、视频或音频入口。这不是贬低；这是路线图信号。当下 V4 对创作者的价值，落在围绕视觉栈的长上下文文本和工具驱动的工作流上，而不是落在视觉栈内部。

等到多模态入口真正落地时，它们会以同样的方式融入 OmniArt 的模型选择器，就像 GPT Image 2 和其他模型一样。在那之前，把 V4 当作那颗驱动 brief 的大脑就好。

创作者今天究竟用 V4 来做什么

在 OmniArt 上，目前真正能跑通的有三种模式。

1. 用 1M token 上下文承载品牌手册

1M 上下文可以从容地装下一整本品牌手册、所有已发布的 campaign、口吻与语气指南、角色设定表、敏感词清单，以及过去十二个月的所有发布文案。把它们全部钉在 system context 里，然后让 V4 起草一份发布 brief。输出会尊重整个文档集，无需再走一遍向量检索。

2. 长篇结构化生成

输出上限是 384K token。这个体量足以一次起草一整本叙事 bible、一份带分镜清单的六集分镜，或一份 50 页的本地化规范。对于较短的工作来说，V4-Flash 每 1M 输出 token 约 0.28 美元，把它变成了起草长篇结构化内容最便宜、又最可靠的方式。

3. 工具优先的智能体驱动视觉栈

把 V4 接到图像与视频生成器上时，真正起作用的是它在工具调用上的纪律性。把 OmniArt 的 API 接口交给它，给它一份 brief，它会逐镜头给出模型选择、提示词与参考图建议。这正是 OmniArt 正在围绕其构建集成的模式。

在 V4-Flash 和 V4-Pro 之间如何选

价格比例大约是 12 倍 —— Flash 用于高吞吐量的发散与起草，Pro 用于深度比 token 成本更重要的会话。

任务	选择
头脑风暴、起草、标题迭代	V4-Flash
品牌手册推理、叙事构建	V4-Pro
跨 campaign 历史的长上下文检索	V4-Pro
驱动图像/视频的工具型智能体循环	规划用 V4-Pro，执行用 V4-Flash

V4 在 OmniArt 整个模型栈里的位置

V4 不是 OmniArt 里图像和视频模型的替代品。它是它们之上的规划层。正在浮现的模式是这样：

层	任务	模型
规划	brief、分镜、镜头清单、品牌推理	DeepSeek V4-Pro
图像	静帧、参考图、版式	Nano Banana Pro、GPT Image 2、Seedream 5.0 Lite
视频	动态镜头、多镜头序列	PixVerse V6 / BACH、Sora 2、Veo 3、Seedance 2.0、HappyHorse 1.0
迭代	重塑、续写、修改	Grok Imagine、Runway Gen-4.5

Note

V4 的多模态入口已经在 DeepSeek 公开的路线图上，但还没有出现在 OmniArt 模型选择器里。它们落地当天，我们会发布一篇跟进文章 —— 包括所需积分、推荐提示词，以及它们在整个栈里的位置。

接下来值得关注什么

未来两个月里有三个值得追踪的信号。

多模态 API 入口。 一旦 DeepSeek 公开发布它们，模型选择器的讨论就会重新打开。
蒸馏后的 V4 变体。 早期报道提到了 V4 Lite 和一个更小的 V4 变体。这两者都可能改写高吞吐量工具调用智能体的成本曲线。
硬件叙事。 华为昇腾级别的推理路径，对那些难以部署纯 CUDA 模型的地区尤其重要。

在 OmniArt 上开始

DeepSeek V4 还不是 OmniArt 选择器里的一键模型 —— 它当前的家在 API 上。如果你今天就想把它当作 OmniArt 之上的规划层来用，可以通过 api.deepseek.com 的 OpenAI 兼容端点驱动它，并把它的工具调用接口指向 OmniArt 用于图像与视频生成的 API。

如果要补一些视觉侧的背景阅读，GPT Image 2 vs Nano Banana 2 对比覆盖了旗舰图像模型的选型决策，最佳图生视频模型短名单则覆盖了 V4 最终会驱动的视频侧选项。

Start creating

准备开始创作？

使用 AI 开始生成精彩内容