计算机行业深度报告:国产化训练从0到1里程碑,战略意义大于性能意义
证券研究报告·行业深度报告·计算机 东吴证券研究所 1 / 18 请务必阅读正文之后的免责声明部分 计算机行业深度报告 国产化训练从 0 到 1 里程碑,战略意义大于性能意义 2026 年 04 月 30 日 证券分析师 王紫敬 执业证书:S0600521080005 021-60199781 wangzj@dwzq.com.cn 行业走势 相关研究 《Agent 时代 CPU 迎来重新定位,国产 CPU 有望量价齐升)》 2026-04-26 《Token 时代下算力租赁行业重构》 2026-04-14 增持(维持) [Table_Tag] [Table_Summary] 投资要点 ◼ 重要意义:国产开源大模型在国产算力训练适配领域以及百万级上下文能力实现了里程碑式突破。 ◼ DeepSeek V4 首次由华为昇腾芯片参与训练。DeepSeek V4 Flash 是首个公开说明训练侧使用国产算力的通用大模型,通过三大核心设计实现了去英伟达化的技术布局。(1)引入 MXFP4 量化感知训练,对 MoE 专家权重与索引器 QK 路径实现 FP4 量化,降低了对 NVIDIA FP8 生态的绑定,可无缝适配华为昇腾、寒武纪等国产芯片;(2)采用 TileLang 领域专用语言开发底层算子,脱离 CUDA 生态强绑定,可跨硬件平台编译,降低向国产芯片的迁移成本;(3)自研 MegaMoE2 融合内核,实现专家并行的细粒度通信计算重叠,已在华为昇腾平台完成适配跑通,解决了国产硬件环境下 MoE 模型的通信瓶颈。 ◼ 性能表现:整体跻身全球第一梯队,多项核心指标比肩甚至超越国际顶级闭源模型。(1)知识储备:DeepSeek-V4-Pro-Max 在 SimpleQA-Verified基准上取得 57.9 分,大幅领先其他主流开源模型;中文 SimpleQA 得分达 84.4,大幅缩小与 Gemini-3.1-Pro 的差距,MMLU-Pro、GPQA Diamond等教育知识基准均领跑开源赛道。(2)推理与代码能力:Pro-Max 版本Codeforces 评分达 3206,位列人类选手排行榜第 23 名,LiveCodeBench Pass@1 达 93.5,IMOAnswerBench 得分 89.8 仅略逊于 GPT-5.4;Flash版本 Codeforces 评分也达到 3052,推理性能追平 GPT-5.2 等闭源模型。(3)Agent 能力:V4 Pro-Max 的 SWE-bench Verified 任务解决分数达 80.6,与 Claude Opus 4.6 基本持平,Terminal Bench 2.0、MCPAtlas Public 等基准均处于开源模型第一梯队。(4)长上下文能力:1M token场景下,MRCR、CorpusQA 得分分别为 83.5、62.0,超越 Gemini-3.1-Pro,且 128K 上下文内检索能力保持高度稳定。(5)中文创作:其功能性写作对 Gemini-3.1-Pro 胜率达 62.7%,创意写作质量胜率高达 77.5%,仅在高难度多轮约束场景略逊于 Claude Opus 4.5。 ◼ 模型技术架构:CSA+HCA+mHC 进一步压缩推理成本。(1)首创CSA+HCA 交替的混合注意力架构。通过分层 KV 缓存压缩与稀疏注意力结合,在 1M token 上下文场景下,Pro 版本单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存占用降至 10%,Flash 版本更是分别降至 10%与 7%,从底层解决了超长上下文的算力瓶颈;(2)引入 mHC 流形约束超连接升级传统残差结构,提升了深层模型的信号传播稳定性与表达能力,同时采用 Muon 优化器搭配预期性路由、SwiGLU 钳制技术,解决了万亿参数 MoE 模型训练的 Loss Spike 难题;(3)采用领域专家独立训练+全词表在线蒸馏的后训练范式,规避了多能力融合的性能退化问题。 ◼ 投资建议:DeepSeek V4 是大模型在训练侧使用国产算力从 0 到 1 的尝试。此前国产大模型采用国产算力均用于推理侧,而 DeepSeek 本次从模型内核到训练架构、到推理全流程均出现了国产算力的影子,是重要里程碑。因此,无论 DeepSeek V4 表现如何,战略意义均十分重要,对国产算力的训练适配前景才是关注的重点。国产算力相关标的:禾盛新材、寒武纪-U、海光信息、中科曙光、摩尔线程-U、沐曦股份-U、华丰科技、航天电器等,详见正文 P17【投资建议】。 ◼ 风险提示:大模型迭代节奏不及预期;国产算力软硬件生态适配进度不及预期;大模型行业市场竞争持续加剧;行业政策监管持续趋严 -3%1%5%9%13%17%21%25%29%33%2025/4/302025/8/292025/12/282026/4/28计算机沪深300 请务必阅读正文之后的免责声明部分 行业深度报告 东吴证券研究所 2 / 18 内容目录 1. 与市场不同的观点:国产算力适配的探路者, .............................................................................. 4 2. DeepSeek V4:首个实现国产算力训练适配的顶级通用大模型 ..................................................... 5 2.1. MXFP4 量化感知训练:打破 NVIDIA 浮点生态强绑定 ....................................................... 5 2.1.1. 什么是 MXFP4 ................................................................................................................. 5 2.1.2. MXFP4 在 DeepSeek V4 中的具体应用环节 .................................................................. 5 2.1.3. MXFP4 助力国产化适配的核心逻辑 .............................................................................. 5 2.1.4. MXFP4 当前存在的短板 .................................................................................................. 6 2.2. TileLang 领域专用语言:脱离 CUDA 生态的底层算子底座 ................................................. 6 2.2.1. 什么是 TileLang ....
[东吴证券]:计算机行业深度报告:国产化训练从0到1里程碑,战略意义大于性能意义,点击即可下载。报告格式为PDF,大小1.43M,页数18页,欢迎下载。



