计算机：DeepSeek-V4点评-多层面技术提升训练规模，超长上下文进入普惠时代

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2026年04月26日优于大市1DeepSeek-V4 点评多层面技术提升训练规模，超长上下文进入普惠时代 行业研究·行业快评 计算机 投资评级：优于大市（维持）证券分析师：熊莉021-61761067xiongli1@guosen.com.cn执证编码：S0980519030002联系人：侯睿hourui3@guosen.com.cn事项：2026 年 4 月 24 日，DeepSeek 最新模型 V4 预览版本正式上线并同步开源，包括两个 MoE 语言模型——DeepSeek-V4-Pro（总参数量 1.6 万亿，其中激活参数为 490 亿）和 DeepSeek-V4-Flash（总参数量 2840亿，其中激活参数为 130 亿），两者均支持长达一百万 token 的上下文长度，DeepSeek-V4 系列在架构与优化方面进行了多项关键升级。国信计算机观点：DeepSeek-V4 已经具备接近全球第一梯队的综合能力，同时通过极具竞争力的价格体系，打开了大规模企业级 AI Agent 落地的商业空间。其在长上下文训练中的优化为基础模型的进步提供了全新的方向，后续百万上下文有望成为前沿模型的标配。同时，DeepSeek-V4 在国产算力方面积极适配，有望推动整体国产算力需求增长。风险提示：下游需求不及预期、AI 应用落地不及预期、硬件技术落地进程不及预期、宏观经济波动等。评论： 模型层：2026 年 4 月 24 日，DeepSeek 最新模型 V4 预览版本正式上线并同步开源，包括两个 MoE 语言模型——DeepSeek-V4-Pro（总参数量 1.6 万亿，其中激活参数为 490 亿）和 DeepSeek-V4-Flash（总参数量 2840亿，其中激活参数为 130 亿），两者均支持长达一百万 token 的上下文长度，DeepSeek-V4 系列在架构与优化方面进行了多项关键升级：1）混合注意力架构 CSA+HCA：不是继续沿用标准 dense attention，而是把注意力拆成两类，CSA 先把 KV沿序列维压缩，再做稀疏选择；HCA 则用更激进的压缩，但保留 dense attention。两者交替使用，目标是同时兼顾局部依赖、全局检索能力和极端长序列下的成本控制。此设计不是单点优化，而是从 attention结构层面重写了长上下文的成本函数，因此能把 1M context 真正做成系统级可运行方案。在 100 万 token场景下，V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%，KV cache 只有 10%，V4-Flash 更低到 10% FLOPs 和 7% KV cache。2）mHC（Manifold-Constrained Hyper-Connections）：把残差连接从经验上有效变成数值上更稳定的可控结构。普通 Hyper-Connections 虽然能增强表达，但深层堆叠时容易数值不稳定；于是 V4 把残差映射矩阵约束到 doubly stochastic manifold 上，使其谱范数受限、残差传播变成 non-expansive，从而改善深层训练稳定性。3）把 Muon optimizer 真正落到超大规模训练中：不是简单换了个优化器，而是把 Muon 作为大部分模块的主优化器，同时保留 AdamW 给 embedding 、norm 、head 等部分，再配合 hybrid Newton-Schulzorthogonalization 去提升收敛和稳定性。4）FP4 量化训练（QAT）：DeepSeek 把 FP4 用在两个位置，一是 MoE expert weights，二是 CSA 里 indexer的 QK 路径；同时还把 index scores 从 FP32 压到 BF16，使 top-k selector 达到 2×加速，同时保留 99.7%的 KV 召回率。同时，FP4 到 FP8 的 dequantization 在其设定下可以无损地复用现有 FP8 训练框架，这使请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2得低比特方案不只是理论节省显存，而是真正进入了可训练、可 rollout、可部署的主干流程。5）后训练专家独立训练+on-policy distillation 统一蒸馏：不是直接把一个通用模型拿去做混合 RL，而是先分别培养数学、代码、agent、instruction-following 等领域专家，再通过 on-policy distillation把这些能力蒸馏回一个统一模型。设计的意义在于把专才能力最强和最终交付一个通用模型两个目标拆开做，兼顾 specialization 和 consolidation。6）基础设施层面创新：MoE 中把通信、计算、访存做成单融合 kernel；更细粒度的 expert wave 调度来隐藏通信开销。这个 MoE 通信—计算融合方案不只理论可行，DeepSeek 在 NVIDIA GPUs 和 HUAWEI AscendNPUs 平台上都对细粒度 EP 调度方案完成了验证，该方案在通用推理负载下可实现 1.50-1.73 倍的加速，在时延敏感型场景（如 RL 采样迭代、高速智能体服务）中，最高加速比可达 1.96 倍。DeepSeek-V4 使用超 32 万亿 token 数据对模型进行预训练，并辅以完整的后训练流程，以释放并增强模型能力。其中，DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro 的最高推理强度模式）在核心任务上重新定义了开源模型 SOTA，性能超越其前代模型。DeepSeek-V4 系列在长上下文场景下具有极高的效率，在百万 token的上下文设置中，DeepSeek-V4-Pro 的单 token 推理计算量（FLOPs）仅为 DeepSeek-V3.2 的 27%，KV 缓存仅为其 10%。这使得模型能够常规性支持百万 token 的上下文，从而让长时序任务更加可行。图1：DeepSeek-V4 通过更少计算量实现开源 SOTA资料来源：《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》，国信证券经济研究所整理 混合注意力架构 CSA+HCA：在普通 Transformer 里，假设用户现在生成第 100 万个 token，理论上要去关注前面所有 token。因为每个 token 都要和前面大量 token 做匹配，序列越长，计算量和 KV cache 都会指数级增长，因此标准 attention的二次复杂度是超长上下文和长推理过程的核心瓶颈。CSA（Compressed Sparse Attention，压缩稀疏注意力）主要有以下效果：1）Compressed（压缩 KV）：假设原来有 100 万个 token，每个 token 都有自己的 KV。CSA 不再保留 100 万个独立 KV，而是每隔一组 t

立即下载

综合

2026-04-26

国信证券

熊莉

13页

1.46M

[国信证券]:计算机：DeepSeek-V4点评-多层面技术提升训练规模，超长上下文进入普惠时代，点击即可下载。报告格式为PDF，大小1.46M，页数13页，欢迎下载。

本报告共13页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共13页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机：DeepSeek-V4点评-多层面技术提升训练规模，超长上下文进入普惠时代

关于我们

联系我们

计算机：DeepSeek-V4点评-多层面技术提升训练规模，超长上下文进入普惠时代

关于我们

联系我们

小程序

公众号