终等到DeepSeek V4：1.6万亿参数、百万上下文，牵手华为，价格依然"屠夫级"

出品 | 《态度》栏目

作者 | 袁宁

编辑 | 丁广胜

DeepSeek-V4，终于来了。

这段时间，行业节奏已经快到有些失真。新模型一波接一波，参数、榜单、价格、长上下文、Agent、推理强度，几乎每隔几天就要重排一次座次。越是在这种密集更新里，DeepSeek的沉默就越容易被放大。再叠加融资、扩张、下一阶段战略这些外围讨论，市场对它的期待，早就不只是“再发一个新模型”这么简单。

所以，V4这次上线，大家真正想知道的其实是两件事：

第一，DeepSeek还在不在第一梯队里。

第二，它这次到底拿出了什么新东西。

4月24日，DeepSeek-V4预览版官宣上线，同步开源。

先说结论：V4不是一代靠“能力全面跃升”来定义自己的模型。官方表示，相比前代模型，DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中，V4-Pro已达到当前开源模型最佳水平，并在其他Agent 相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding 模型，据评测反馈使用体验优于Sonnet 4.5，交付质量接近 Opus 4.6非思考模式，但仍与 Opus 4.6思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

那 V4在做什么？一句话：它把长上下文的成本结构彻底重写了一遍。100万 token 上下文成为标配，但单 token 的算力消耗反而大幅下降。这是一次基础设施级别的发布，为下一阶段的 test-time scaling 和长程 Agent 任务铺路。

两个版本、百万上下文、三档推理，DeepSeek这次最狠的还是价格

这次 V4一共两个版本。

V4-Pro 是旗舰版，总参数1.6T，激活参数49B；V4-Flash 是轻量版，总参数284B，激活参数13B。两者都原生支持1M 上下文，同时支持非思考模式和思考模式。

更进一步，每个模型又分成三档推理强度：Non-think、Think High、Think Max。也就是说，这次 DeepSeek 给出的不只是两个模型，而是一整套可以按场景分层调用的能力结构。

从产品上看，这个思路已经很明确了：Pro 负责冲能力上限，Flash 负责铺性价比；非思考负责效率，Max 负责榨干推理能力。

官方也直接说了，“从现在开始，一百万上下文将是 DeepSeek 所有官方服务的标配。”这句话表面上是在强调上下文长度，实际上更重要的是它背后的意思：DeepSeek 不是想把1M 当成一个展示参数，而是想把它做成标准配置。

而标准配置能不能成立，关键从来都不是“写没写支持1M”，而是成本。

这次 V4最值得注意的地方，也正是在成本曲线。按照官方披露的数据，在1M 上下文设置下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2的27%，KV Cache 只有10%；V4-Flash 更激进，分别压到10% 和7%。换句话说，虽然上下文从128K 拉到了1M，理论上放大接近8倍，但单 token 的推理成本并没有跟着爆炸，反而被打了下来。

这一点其实比“百万上下文”本身更关键。因为过去很长一段时间，长上下文一直都更像一种能力展示：窗口越写越长，但真到实际调用时，价格、延迟、显存压力都很难看。V4这次真正想证明的是，长上下文不一定只能做成贵族配置，它可以被改造成可供大规模调用的基础能力。

这一点在价格上体现得非常直接。

V4-Pro 每百万 token 输入价格是1元，输出是12元；V4-Flash 每百万 token 输入0.2元，输出2元。这个价格一出来，基本上还是那个熟悉的 DeepSeek 风格。

也难怪不少用户第一反应还是那句老话：便宜，而且强。

技术上动了三刀：注意力、残差、后训练

V4最核心的技术改动在注意力层。传统 Transformer 的注意力机制里，每个 token 要和前面所有 token 算一遍相似度。上下文从10万拉到100万，计算量增长的不是10倍，是100倍。

V4的做法是把注意力拆成两种，交替叠用。一种叫 CSA（压缩稀疏注意力），先把每4个 token 的 KV 缓存合并成一条摘要，再让每个 query 只在这些摘要里挑出最相关的 top-k 条去算。既压缩了"要看的内容"，又只挑"值得看的"去算。另一种叫 HCA（重压缩注意力），压缩率更激进，把每128个 token 合并成一条，但对剩下的摘要做稠密注意力，不做稀疏挑选。两种交替叠起来，再加一个滑动窗口分支处理近距离 token 之间的细节依赖。这是一套"粗粒度 + 细粒度、稀疏 + 稠密"的组合拳。

把这套方案放进 DeepSeek 过去两年的技术脉络里，变化就很清晰。V2、V3走的是参数稀疏化，总参数很大，但每 token 只激活一小部分专家。V4在此之外又开了一条上下文稀疏化的路，KV 压缩、top-k 选择、分层压缩率。这是 DeepSeek 第一次把"稀疏化"的刀动到 Transformer 的核心结构里。

除了注意力层，V4还改了两处之前没动过的地方。一是把传统残差连接升级为 mHC（流形约束超连接），通过数学约束让深层网络的前向和反向传播更稳定；二是用 Muon 优化器替代大部分模块原本用的 AdamW，收敛更快，训练更稳。同时动注意力、残差、优化器三处核心结构，在 DeepSeek 的历史上是第一次。

比架构改动更值得注意的是后训练方法的切换。V3.2用的是"混合 RL"，一次性用强化学习优化多个目标。V4换成了"分化再统一"的两步走。第一步，针对数学、代码、Agent、指令跟随等不同领域，每个领域单独训练一个专家模型——先用该领域高质量数据做监督微调，再用 GRPO 算法做强化学习，在各自的细分赛道上跑到最优。第二步，用 On-Policy Distillation（OPD，在策略蒸馏）把十多个领域专家"合成"回一个统一的学生模型。学生自己生成回答，然后对每个回答，去匹配"最懂这个问题"的专家的输出分布，通过 logit 级对齐把能力吸收进来。通俗地讲，就是把一堆尖子生的本事蒸馏进同一个人脑袋里。

这套流程的工程难度极高：同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek 的做法是把所有教师权重统一卸载到分布式存储，只缓存每个教师最后一层的 hidden state，训练时按教师索引排序样本，保证任意时刻 GPU 显存里只驻留一个 teacher head。V4的能力不再靠一个模型从头学到底，而是先让不同专家在各自赛道跑到顶，再把它们收编进同一套权重。这种思路绕开了传统混合 RL 容易导致的能力互相干扰问题。

在 Agent 方向，V4做了几处专项优化：后训练阶段把 Agent 作为与数学、代码并列的独立专家方向单独训练；工具调用格式从 JSON 换成带特殊 token 的 XML 结构，降低转义错误；跨轮次推理痕迹在工具调用场景下完整保留，不再像 V3.2那样每轮清空。DeepSeek 还自建了一套名为 DSec 的沙箱平台，单集群可并发管理数十万个沙箱实例，专门支撑 Agent 强化学习训练和评测。V4针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行了适配优化，在代码任务和文档生成任务上均有提升。

融资、算力、昇腾，V4背后还有DeepSeek的下一道现实题

V4这次发布，另一个绕不开的话题，是算力。

DeepSeek 在说明里提到，受限于高端算力，当前 Pro 的服务吞吐仍然有限，预计下半年昇腾950超节点批量上市之后，Pro 的价格还会进一步大幅下调。它基本等于确认了两件事。

第一，DeepSeek 这次确实已经把国产算力协同放进正式路线里了。

第二，V4当前的能力释放，还没有完全到位，背后依然受制于算力供给。

昇腾表示，其一直同步支持DeepSeek系列模型，本次通过双方芯模技术紧密协同，实现昇腾超节点全系列产品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型，在8K输入场景，昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型，8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS。

今天下午，16点，华为昇腾还将在B站直播DeepSeek V4在其平台的首发。

此前有消息称，DeepSeek 正以超过100亿美元估值寻求外部融资，计划募集不少于3亿美元资金。对一家过去长期强调独立性、相对克制资本叙事的公司来说，这种变化本身就很值得玩味。因为当模型行业进入更高密度的竞争之后，技术路线再强，也很难脱离算力、人才和现金流去单独讨论。

从这个角度看，V4其实也暴露出 DeepSeek 当前所处的位置：它在模型能力上仍然保持强竞争力，尤其在开源和高性价比这条线上依然非常突出；但与此同时，它也已经进入一个必须更现实地处理算力和资源配置的问题阶段。

这点在多模态上体现得尤其明显。

这次 V4没有推出多模态版本，而多模态已经越来越成为头部模型厂商的“标配动作”。如果说 V4展现的是 DeepSeek 仍然有能力在文本模型和 Agent 能力上继续往前推，那么它暂时没有补上的那一块，也同样说明公司还得在资源约束下做取舍。

所以，怎么理解这次 V4？如果说过去外界对 DeepSeek 的期待，是它还能不能再做出一个“便宜又强”的模型；那么 V4给出的回答是：它不仅还在这么做，而且正在试图把“便宜又强”这件事，进一步做成一种结构性的能力。

至于再往后，DeepSeek 能不能补上多模态、能不能借融资解决算力瓶颈、能不能把 V4这套 preview 架构真正打磨成熟，那就是下一阶段的问题了。