DeepSeek V4 多模态:创作者必读的能力清单
DeepSeek V4 多模态预览:1M token 上下文、V4-Flash 与 V4-Pro 定价、CSA + HCA 架构,以及它在 OmniArt 工作流中的位置。

DeepSeek V4 已于 2026 年 4 月 24 日上线,提供两档版本、100 万 token 上下文和最长 384K 的输出长度。它不是视频模型,也不打算去替代某个视频模型。V4 真正改变的,是视觉栈之上的那一层 —— 创意 brief、分镜、品牌手册,以及把"做一场 campaign"升级为"做一场尊重今年所有拍摄成果的 campaign"所需的长上下文检索。本文会拆解 DeepSeek V4 是什么、它能给 OmniArt 创作者带来什么,以及它在整个模型阵容里的位置。
DeepSeek V4 是什么
DeepSeek V4 是一个长上下文推理与工具调用模型,提供两个生产档位 —— V4-Flash 和 V4-Pro —— 都通过 OpenAI 兼容 API(api.deepseek.com)开放。1M token 上下文加上结构化工具调用是头条卖点;底层架构使用了压缩稀疏注意力(CSA)加重型压缩注意力(HCA),这正是它能让成本不随上下文长度线性膨胀的关键。
| 档位 | 总参数 | 激活参数 | 预训练 token | 输出价格 | 输入价格(缓存未命中) |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | 32T | ¥2 / 1M tokens (~$0.28) | ¥1 / 1M tokens |
| V4-Pro | 1.6T | 49B | 33T | ¥24 / 1M tokens (~$3.48) | ¥12 / 1M tokens |
两档的输出上限都是 384K token。两档都从同一个模型里同时提供"思考"与"非思考"两种模式 —— V4 把过去 V3 与 R1 分别承担的能力统一了起来。
一段话讲清架构
真正有意思的是 CSA + HCA。压缩稀疏注意力会在每一层把注意力收敛到少量高信息 token 上;重型压缩注意力则在此之上叠加密集压缩。两者结合,让 1M 上下文从一个跑分奖杯变成一个能负担得起的能力。DeepSeek 在华为昇腾(Huawei Ascend)级别的基础设施上训练并部署 V4,而非纯 CUDA 栈,推理优化由 Cambricon 适配的 vLLM 承担。
值得引用的几项基准
| 基准 | 结果 |
|---|---|
| Arena.ai 开源代码竞技场 | V4-Pro 第 3 |
| Arena.ai 综合榜 | V4-Pro 第 14 |
| Vals AI Vibe Code Benchmark | V4 在开源权重模型中第 1 |
| Vibe Code 对比 V3.2 | 性能跃升约 10 倍 |
| 闭源对手集 | 在部分场景下击败 Gemini 3.1 Pro |
DeepSeek 自己对差距的描述也很直白:V4"在复杂知识与推理能力上仍落后最顶级的闭源系统大约三到六个月"。对大多数创作者工作流来说,这个差距并不构成约束 —— 但知道它存在是有价值的。
V3、R1 和 V4 之间发生了什么变化
V3 是一个强力的文本与代码模型。R1 是一个思维链推理模型。V4 把两种模式统一在同一个模型下,提供可切换的思考与非思考推理路径。上下文从 V3 的 128K 扩展到 V4 的 1M。工具使用与长上下文检索从打补丁升级为一等公民。
| 能力 | V3 | R1 | V4 |
|---|---|---|---|
| 上下文 | 128K | 128K | 1M |
| 推理模式 | 无 | 有(默认) | 可切换 |
| 工具使用 | 受限 | 受限 | 一等公民 |
| 多模态 | 无 | 无 | 路线图(推进中) |
这里说的"多模态"是什么 —— 以及它暂时还不是什么
DeepSeek 在 V4 发布时刻意低调处理了多模态部分。发布稿把多模态能力矩阵描述为"持续演进中"—— 目前在 API 层并没有公开的图像、视频或音频入口。这不是贬低;这是路线图信号。当下 V4 对创作者的价值,落在围绕视觉栈的长上下文文本和工具驱动的工作流上,而不是落在视觉栈内部。
等到多模态入口真正落地时,它们会以同样的方式融入 OmniArt 的模型选择器,就像 GPT Image 2 和其他模型一样。在那之前,把 V4 当作那颗驱动 brief 的大脑就好。
创作者今天究竟用 V4 来做什么
在 OmniArt 上,目前真正能跑通的有三种模式。
1. 用 1M token 上下文承载品牌手册
1M 上下文可以从容地装下一整本品牌手册、所有已发布的 campaign、口吻与语气指南、角色设定表、敏感词清单,以及过去十二个月的所有发布文案。把它们全部钉在 system context 里,然后让 V4 起草一份发布 brief。输出会尊重整个文档集,无需再走一遍向量检索。
2. 长篇结构化生成
输出上限是 384K token。这个体量足以一次起草一整本叙事 bible、一份带分镜清单的六集分镜,或一份 50 页的本地化规范。对于较短的工作来说,V4-Flash 每 1M 输出 token 约 0.28 美元,把它变成了起草长篇结构化内容最便宜、又最可靠的方式。
3. 工具优先的智能体驱动视觉栈
把 V4 接到图像与视频生成器上时,真正起作用的是它在工具调用上的纪律性。把 OmniArt 的 API 接口交给它,给它一份 brief,它会逐镜头给出模型选择、提示词与参考图建议。这正是 OmniArt 正在围绕其构建集成的模式。
在 V4-Flash 和 V4-Pro 之间如何选
价格比例大约是 12 倍 —— Flash 用于高吞吐量的发散与起草,Pro 用于深度比 token 成本更重要的会话。
| 任务 | 选择 |
|---|---|
| 头脑风暴、起草、标题迭代 | V4-Flash |
| 品牌手册推理、叙事构建 | V4-Pro |
| 跨 campaign 历史的长上下文检索 | V4-Pro |
| 驱动图像/视频的工具型智能体循环 | 规划用 V4-Pro,执行用 V4-Flash |
V4 在 OmniArt 整个模型栈里的位置
V4 不是 OmniArt 里图像和视频模型的替代品。它是它们之上的规划层。正在浮现的模式是这样:
| 层 | 任务 | 模型 |
|---|---|---|
| 规划 | brief、分镜、镜头清单、品牌推理 | DeepSeek V4-Pro |
| 图像 | 静帧、参考图、版式 | Nano Banana Pro、GPT Image 2、Seedream 5.0 Lite |
| 视频 | 动态镜头、多镜头序列 | PixVerse V6 / BACH、Sora 2、Veo 3、Seedance 2.0、HappyHorse 1.0 |
| 迭代 | 重塑、续写、修改 | Grok Imagine、Runway Gen-4.5 |
Note
V4 的多模态入口已经在 DeepSeek 公开的路线图上,但还没有出现在 OmniArt 模型选择器里。它们落地当天,我们会发布一篇跟进文章 —— 包括所需积分、推荐提示词,以及它们在整个栈里的位置。
接下来值得关注什么
未来两个月里有三个值得追踪的信号。
- 多模态 API 入口。 一旦 DeepSeek 公开发布它们,模型选择器的讨论就会重新打开。
- 蒸馏后的 V4 变体。 早期报道提到了 V4 Lite 和一个更小的 V4 变体。这两者都可能改写高吞吐量工具调用智能体的成本曲线。
- 硬件叙事。 华为昇腾级别的推理路径,对那些难以部署纯 CUDA 模型的地区尤其重要。
在 OmniArt 上开始
DeepSeek V4 还不是 OmniArt 选择器里的一键模型 —— 它当前的家在 API 上。如果你今天就想把它当作 OmniArt 之上的规划层来用,可以通过 api.deepseek.com 的 OpenAI 兼容端点驱动它,并把它的工具调用接口指向 OmniArt 用于图像与视频生成的 API。
如果要补一些视觉侧的背景阅读,GPT Image 2 vs Nano Banana 2 对比 覆盖了旗舰图像模型的选型决策,最佳图生视频模型短名单 则覆盖了 V4 最终会驱动的视频侧选项。