出品 | 《态度》栏目
作者 | 袁宁
编辑 | 丁广胜
DeepSeek-V4,终于来了。
这段时间,行业节奏已经快到有些失真。新模型一波接一波,参数、榜单、价格、长上下文、Agent、推理强度,几乎每隔几天就要重排一次座次。越是在这种密集更新里,DeepSeek的沉默就越容易被放大。再叠加融资、扩张、下一阶段战略这些外围讨论,市场对它的期待,早就不只是“再发一个新模型”这么简单。
所以,V4这次上线,大家真正想知道的其实是两件事:
第一,DeepSeek还在不在第一梯队里。
第二,它这次到底拿出了什么新东西。
4月24日,DeepSeek-V4预览版官宣上线,同步开源。
先说结论:V4不是一代靠“能力全面跃升”来定义自己的模型。官方表示,相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent 相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding 模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近 Opus 4.6非思考模式,但仍与 Opus 4.6思考模式存在一定差距。
DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。
在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。
那 V4在做什么?一句话:它把长上下文的成本结构彻底重写了一遍。100万 token 上下文成为标配,但单 token 的算力消耗反而大幅下降。这是一次基础设施级别的发布,为下一阶段的 test-time scaling 和长程 Agent 任务铺路。
两个版本、百万上下文、三档推理,DeepSeek这次最狠的还是价格
这次 V4一共两个版本。
V4-Pro 是旗舰版,总参数1.6T,激活参数49B;V4-Flash 是轻量版,总参数284B,激活参数13B。两者都原生支持1M 上下文,同时支持非思考模式和思考模式。
更进一步,每个模型又分成三档推理强度:Non-think、Think High、Think Max。也就是说,这次 DeepSeek 给出的不只是两个模型,而是一整套可以按场景分层调用的能力结构。
从产品上看,这个思路已经很明确了:Pro 负责冲能力上限,Flash 负责铺性价比;非思考负责效率,Max 负责榨干推理能力。
官方也直接说了,“从现在开始,一百万上下文将是 DeepSeek 所有官方服务的标配。”这句话表面上是在强调上下文长度,实际上更重要的是它背后的意思:DeepSeek 不是想把1M 当成一个展示参数,而是想把它做成标准配置。
而标准配置能不能成立,关键从来都不是“写没写支持1M”,而是成本。
这次 V4最值得注意的地方,也正是在成本曲线。按照官方披露的数据,在1M 上下文设置下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2的27%,KV Cache 只有10%;V4-Flash 更激进,分别压到10% 和7%。换句话说,虽然上下文从128K 拉到了1M,理论上放大接近8倍,但单 token 的推理成本并没有跟着爆炸,反而被打了下来。
这一点其实比“百万上下文”本身更关键。因为过去很长一段时间,长上下文一直都更像一种能力展示:窗口越写越长,但真到实际调用时,价格、延迟、显存压力都很难看。V4这次真正想证明的是,长上下文不一定只能做成贵族配置,它可以被改造成可供大规模调用的基础能力。
这一点在价格上体现得非常直接。
V4-Pro 每百万 token 输入价格是1元,输出是12元;V4-Flash 每百万 token 输入0.2元,输出2元。这个价格一出来,基本上还是那个熟悉的 DeepSeek 风格。
也难怪不少用户第一反应还是那句老话:便宜,而且强。
技术上动了三刀:注意力、残差、后训练
V4最核心的技术改动在注意力层。传统 Transformer 的注意力机制里,每个 token 要和前面所有 token 算一遍相似度。上下文从10万拉到100万,计算量增长的不是10倍,是100倍。
V4的做法是把注意力拆成两种,交替叠用。一种叫 CSA(压缩稀疏注意力),先把每4个 token 的 KV 缓存合并成一条摘要,再让每个 query 只在这些摘要里挑出最相关的 top-k 条去算。既压缩了"要看的内容",又只挑"值得看的"去算。另一种叫 HCA(重压缩注意力),压缩率更激进,把每128个 token 合并成一条,但对剩下的摘要做稠密注意力,不做稀疏挑选。两种交替叠起来,再加一个滑动窗口分支处理近距离 token 之间的细节依赖。这是一套"粗粒度 + 细粒度、稀疏 + 稠密"的组合拳。
把这套方案放进 DeepSeek 过去两年的技术脉络里,变化就很清晰。V2、V3走的是参数稀疏化,总参数很大,但每 token 只激活一小部分专家。V4在此之外又开了一条上下文稀疏化的路,KV 压缩、top-k 选择、分层压缩率。这是 DeepSeek 第一次把"稀疏化"的刀动到 Transformer 的核心结构里。
除了注意力层,V4还改了两处之前没动过的地方。一是把传统残差连接升级为 mHC(流形约束超连接),通过数学约束让深层网络的前向和反向传播更稳定;二是用 Muon 优化器替代大部分模块原本用的 AdamW,收敛更快,训练更稳。同时动注意力、残差、优化器三处核心结构,在 DeepSeek 的历史上是第一次。
比架构改动更值得注意的是后训练方法的切换。V3.2用的是"混合 RL",一次性用强化学习优化多个目标。V4换成了"分化再统一"的两步走。第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型——先用该领域高质量数据做监督微调,再用 GRPO 算法做强化学习,在各自的细分赛道上跑到最优。第二步,用 On-Policy Distillation(OPD,在策略蒸馏)把十多个领域专家"合成"回一个统一的学生模型。学生自己生成回答,然后对每个回答,去匹配"最懂这个问题"的专家的输出分布,通过 logit 级对齐把能力吸收进来。通俗地讲,就是把一堆尖子生的本事蒸馏进同一个人脑袋里。
这套流程的工程难度极高:同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek 的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的 hidden state,训练时按教师索引排序样本,保证任意时刻 GPU 显存里只驻留一个 teacher head。V4的能力不再靠一个模型从头学到底,而是先让不同专家在各自赛道跑到顶,再把它们收编进同一套权重。这种思路绕开了传统混合 RL 容易导致的能力互相干扰问题。
在 Agent 方向,V4做了几处专项优化:后训练阶段把 Agent 作为与数学、代码并列的独立专家方向单独训练;工具调用格式从 JSON 换成带特殊 token 的 XML 结构,降低转义错误;跨轮次推理痕迹在工具调用场景下完整保留,不再像 V3.2那样每轮清空。DeepSeek 还自建了一套名为 DSec 的沙箱平台,单集群可并发管理数十万个沙箱实例,专门支撑 Agent 强化学习训练和评测。V4针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了适配优化,在代码任务和文档生成任务上均有提升。
融资、算力、昇腾,V4背后还有DeepSeek的下一道现实题
V4这次发布,另一个绕不开的话题,是算力。
DeepSeek 在说明里提到,受限于高端算力,当前 Pro 的服务吞吐仍然有限,预计下半年昇腾950超节点批量上市之后,Pro 的价格还会进一步大幅下调。它基本等于确认了两件事。
第一,DeepSeek 这次确实已经把国产算力协同放进正式路线里了。
第二,V4当前的能力释放,还没有完全到位,背后依然受制于算力供给。
昇腾表示,其一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。
今天下午,16点,华为昇腾还将在B站直播DeepSeek V4在其平台的首发。
此前有消息称,DeepSeek 正以超过100亿美元估值寻求外部融资,计划募集不少于3亿美元资金。对一家过去长期强调独立性、相对克制资本叙事的公司来说,这种变化本身就很值得玩味。因为当模型行业进入更高密度的竞争之后,技术路线再强,也很难脱离算力、人才和现金流去单独讨论。
从这个角度看,V4其实也暴露出 DeepSeek 当前所处的位置:它在模型能力上仍然保持强竞争力,尤其在开源和高性价比这条线上依然非常突出;但与此同时,它也已经进入一个必须更现实地处理算力和资源配置的问题阶段。
这点在多模态上体现得尤其明显。
这次 V4没有推出多模态版本,而多模态已经越来越成为头部模型厂商的“标配动作”。如果说 V4展现的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上继续往前推,那么它暂时没有补上的那一块,也同样说明公司还得在资源约束下做取舍。
所以,怎么理解这次 V4?如果说过去外界对 DeepSeek 的期待,是它还能不能再做出一个“便宜又强”的模型;那么 V4给出的回答是:它不仅还在这么做,而且正在试图把“便宜又强”这件事,进一步做成一种结构性的能力。
至于再往后,DeepSeek 能不能补上多模态、能不能借融资解决算力瓶颈、能不能把 V4这套 preview 架构真正打磨成熟,那就是下一阶段的问题了。