industry模型与洞察10 min read
Journal · 模型与洞察

DeepSeek V4 多模态:创作者必读的能力清单

DeepSeek V4 多模态预览:1M token 上下文、V4-Flash 与 V4-Pro 定价、CSA + HCA 架构,以及它在 OmniArt 工作流中的位置。

OmniArt 团队·
DeepSeek V4 多模态:创作者必读的能力清单

DeepSeek V4 已于 2026 年 4 月 24 日上线,提供两档版本、100 万 token 上下文和最长 384K 的输出长度。它不是视频模型,也不打算去替代某个视频模型。V4 真正改变的,是视觉栈之上的那一层 —— 创意 brief、分镜、品牌手册,以及把"做一场 campaign"升级为"做一场尊重今年所有拍摄成果的 campaign"所需的长上下文检索。本文会拆解 DeepSeek V4 是什么、它能给 OmniArt 创作者带来什么,以及它在整个模型阵容里的位置。

DeepSeek V4 是什么

DeepSeek V4 是一个长上下文推理与工具调用模型,提供两个生产档位 —— V4-Flash 和 V4-Pro —— 都通过 OpenAI 兼容 API(api.deepseek.com)开放。1M token 上下文加上结构化工具调用是头条卖点;底层架构使用了压缩稀疏注意力(CSA)加重型压缩注意力(HCA),这正是它能让成本不随上下文长度线性膨胀的关键。

档位总参数激活参数预训练 token输出价格输入价格(缓存未命中)
V4-Flash284B13B32T¥2 / 1M tokens (~$0.28)¥1 / 1M tokens
V4-Pro1.6T49B33T¥24 / 1M tokens (~$3.48)¥12 / 1M tokens

两档的输出上限都是 384K token。两档都从同一个模型里同时提供"思考"与"非思考"两种模式 —— V4 把过去 V3 与 R1 分别承担的能力统一了起来。

一段话讲清架构

真正有意思的是 CSA + HCA。压缩稀疏注意力会在每一层把注意力收敛到少量高信息 token 上;重型压缩注意力则在此之上叠加密集压缩。两者结合,让 1M 上下文从一个跑分奖杯变成一个能负担得起的能力。DeepSeek 在华为昇腾(Huawei Ascend)级别的基础设施上训练并部署 V4,而非纯 CUDA 栈,推理优化由 Cambricon 适配的 vLLM 承担。

值得引用的几项基准

基准结果
Arena.ai 开源代码竞技场V4-Pro 第 3
Arena.ai 综合榜V4-Pro 第 14
Vals AI Vibe Code BenchmarkV4 在开源权重模型中第 1
Vibe Code 对比 V3.2性能跃升约 10 倍
闭源对手集在部分场景下击败 Gemini 3.1 Pro

DeepSeek 自己对差距的描述也很直白:V4"在复杂知识与推理能力上仍落后最顶级的闭源系统大约三到六个月"。对大多数创作者工作流来说,这个差距并不构成约束 —— 但知道它存在是有价值的。

V3、R1 和 V4 之间发生了什么变化

V3 是一个强力的文本与代码模型。R1 是一个思维链推理模型。V4 把两种模式统一在同一个模型下,提供可切换的思考与非思考推理路径。上下文从 V3 的 128K 扩展到 V4 的 1M。工具使用与长上下文检索从打补丁升级为一等公民。

能力V3R1V4
上下文128K128K1M
推理模式有(默认)可切换
工具使用受限受限一等公民
多模态路线图(推进中)

这里说的"多模态"是什么 —— 以及它暂时还不是什么

DeepSeek 在 V4 发布时刻意低调处理了多模态部分。发布稿把多模态能力矩阵描述为"持续演进中"—— 目前在 API 层并没有公开的图像、视频或音频入口。这不是贬低;这是路线图信号。当下 V4 对创作者的价值,落在围绕视觉栈的长上下文文本和工具驱动的工作流上,而不是落在视觉栈内部。

等到多模态入口真正落地时,它们会以同样的方式融入 OmniArt 的模型选择器,就像 GPT Image 2 和其他模型一样。在那之前,把 V4 当作那颗驱动 brief 的大脑就好。

创作者今天究竟用 V4 来做什么

在 OmniArt 上,目前真正能跑通的有三种模式。

1. 用 1M token 上下文承载品牌手册

1M 上下文可以从容地装下一整本品牌手册、所有已发布的 campaign、口吻与语气指南、角色设定表、敏感词清单,以及过去十二个月的所有发布文案。把它们全部钉在 system context 里,然后让 V4 起草一份发布 brief。输出会尊重整个文档集,无需再走一遍向量检索。

2. 长篇结构化生成

输出上限是 384K token。这个体量足以一次起草一整本叙事 bible、一份带分镜清单的六集分镜,或一份 50 页的本地化规范。对于较短的工作来说,V4-Flash 每 1M 输出 token 约 0.28 美元,把它变成了起草长篇结构化内容最便宜、又最可靠的方式。

3. 工具优先的智能体驱动视觉栈

把 V4 接到图像与视频生成器上时,真正起作用的是它在工具调用上的纪律性。把 OmniArt 的 API 接口交给它,给它一份 brief,它会逐镜头给出模型选择、提示词与参考图建议。这正是 OmniArt 正在围绕其构建集成的模式。

在 V4-Flash 和 V4-Pro 之间如何选

价格比例大约是 12 倍 —— Flash 用于高吞吐量的发散与起草,Pro 用于深度比 token 成本更重要的会话。

任务选择
头脑风暴、起草、标题迭代V4-Flash
品牌手册推理、叙事构建V4-Pro
跨 campaign 历史的长上下文检索V4-Pro
驱动图像/视频的工具型智能体循环规划用 V4-Pro,执行用 V4-Flash

V4 在 OmniArt 整个模型栈里的位置

V4 不是 OmniArt 里图像和视频模型的替代品。它是它们之上的规划层。正在浮现的模式是这样:

任务模型
规划brief、分镜、镜头清单、品牌推理DeepSeek V4-Pro
图像静帧、参考图、版式Nano Banana Pro、GPT Image 2、Seedream 5.0 Lite
视频动态镜头、多镜头序列PixVerse V6 / BACH、Sora 2、Veo 3、Seedance 2.0、HappyHorse 1.0
迭代重塑、续写、修改Grok Imagine、Runway Gen-4.5

Note

V4 的多模态入口已经在 DeepSeek 公开的路线图上,但还没有出现在 OmniArt 模型选择器里。它们落地当天,我们会发布一篇跟进文章 —— 包括所需积分、推荐提示词,以及它们在整个栈里的位置。

接下来值得关注什么

未来两个月里有三个值得追踪的信号。

  • 多模态 API 入口。 一旦 DeepSeek 公开发布它们,模型选择器的讨论就会重新打开。
  • 蒸馏后的 V4 变体。 早期报道提到了 V4 Lite 和一个更小的 V4 变体。这两者都可能改写高吞吐量工具调用智能体的成本曲线。
  • 硬件叙事。 华为昇腾级别的推理路径,对那些难以部署纯 CUDA 模型的地区尤其重要。

在 OmniArt 上开始

DeepSeek V4 还不是 OmniArt 选择器里的一键模型 —— 它当前的家在 API 上。如果你今天就想把它当作 OmniArt 之上的规划层来用,可以通过 api.deepseek.com 的 OpenAI 兼容端点驱动它,并把它的工具调用接口指向 OmniArt 用于图像与视频生成的 API。

如果要补一些视觉侧的背景阅读,GPT Image 2 vs Nano Banana 2 对比 覆盖了旗舰图像模型的选型决策,最佳图生视频模型短名单 则覆盖了 V4 最终会驱动的视频侧选项。

Start creating

准备开始创作?

使用 AI 开始生成精彩内容