DeepSeekV3技术报告

DeepSeek-V3 技术报告DeepSeek-AIresearch@deepseek.com摘要我们推出了 DeepSeek-V3,这是⼀个强⼤的混合专家(MoE)语⾔模型,总参数为 671B,每个 token激活 37B。为了实现⾼效推理和具有成本效益的训练,DeepSeek-V3 采⽤了多头潜在注意⼒(MLA)和DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。此外,DeepSeek-V3 开创了⼀种⽆辅助损失的负载平衡策略,并设定了多 token 预测训练⽬标,以实现更强的性能。我们在 148 万亿个多样化和⾼质量的 token 上对 DeepSeek-V3 进⾏了预训练,随后进⾏了监督微调和强化学习阶段,以充分发挥其能⼒。全⾯评估表明,DeepSeek-V3 的表现优于其他开源模型,并且其性能可与领先的闭源模型相媲美。尽管表现出⾊,DeepSeek-V3 的完整训练仅需 2.788M H800 GPU ⼩时。此外,其训练过程⾮常稳定。在整个训练过程中,我们没有经历任何不可恢复的损失峰值,也没有进⾏任何回滚。模型检查点可在https://github.com/deepseek-ai/DeepSeek-V3.MMLU-Pro(EM)GPQA-Diamond(Pass@1)MATH 500(EM)AIME 2024(Pass@1)Codeforces(Percentile)SWE-bench 已验证(Resolved)020406080100准确率 / 百分位 (%)75.959.190.239.251.642.066.241.374.716.735.622.671.649.080.023.324.8 23.873.351.173.823.325.3 24.572.649.974.69.323.638.878.065.078.316.020.350.8DeepSeek-V3 DeepSeek-V2.5 Qwen2.5-72B-Inst Llama-3.1-405B-Inst GPT-4o-0513 Claude-3.5-Sonnet-1022图 1 | DeepSeek-V3 及其对应模型的基准性能。arXiv:2412.19437v1 [cs.CL] 2024 年 12 ⽉ 27 ⽇内容1 引⾔ 42架构 62.1 基本架构62.1.1 多头潜在注意⼒72.1.2 DeepSeekMoE 与⽆辅助损失负载平衡82.2多标记预测103基础设施 113.1 计算集群113.2 训练框架123.2.1 DualPipe 和计算-通信重叠123.2.2 跨节点全到全通信的⾼效实现133.2.3 极低开销的极致内存节省143.3FP8 训练143.3.1 混合精度框架153.3.2 量化和乘法带来的精度提升163.3.3 低精度存储和通信183.4推理与部署183.4.1 预填充193.4.2 解码193.5硬件设计建议203.5.1 通信硬件203.5.2 计算硬件204预训练 224.1 数据构建224.2超参数224.3⻓上下⽂扩展234.4评估244.4.1 评估基准244.4.2 评估结果254.5讨论264.5.1 多标记预测的消融研究264.5.2 辅助损失⾃由平衡策略的消融研究2724.5.3 批量负载平衡 VS. 序列负载平衡275后训练 285.1 监督微调285.2强化学习295.2.1 奖励模型295.2.2 群体相对政策优化305.3评估305.3.1 评估设置305.3.2 标准评估325.3.3 开放式评估335.3.4 DeepSeek-V3 作为⽣成奖励模型335.4讨论345.4.1 从 DeepSeek-R1 蒸馏345.4.2 ⾃我奖励345.4.3 多标记预测评估356结论、局限性和未来⽅向 35A 贡献与致谢 45B 低精度训练的消融研究 47B.1 FP8 与 BF16 训练47B.2关于块级量化的讨论47C 专家专业化模式的 16B 辅助损失基础和⽆辅助损失模型 4831. 引⾔近年来,⼤型语⾔模型(LLMs)正在经历快速的迭代和演变(Anthropic, 2024; Google, 2024;OpenAI, 2024a),逐渐缩⼩与⼈⼯通⽤智能(AGI)之间的差距。除了闭源模型,开源模型,包括DeepSeek 系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)、LLaMA 系列(AI@Meta, 2024a,b;Touvron et al., 2023a,b)、Qwen 系列(Qwen, 2023, 2024a,b)和 Mistral 系列(Jiang et al., 2023;Mistral, 2024),也在取得显著进展,努⼒缩⼩与其闭源同⾏的差距。为了进⼀步推动开源模型能⼒的边界,我们扩⼤了模型规模,并推出 DeepSeek-V3,这是⼀个具有 671B 参数的⼤型专家混合模型(MoE),其中每个 token 激活 37B 参数。从前瞻性的⻆度出发,我们始终努⼒追求强⼤的模型性能和经济的成本。因此,在架构⽅⾯,DeepSeek-V3 仍然采⽤多头潜在注意⼒(MLA)(DeepSeek-AI, 2024c)以实现⾼效推理,并采⽤DeepSeekMoE(Dai et al., 2024)以实现经济⾼效的训练。这两种架构已在 DeepSeekV2(DeepSeek-AI, 2024c)中得到了验证,证明它们能够在实现⾼效训练和推理的同时保持强⼤的模型性能。除了基本架构外,我们还实施了两种额外策略,以进⼀步增强模型能⼒。⾸先,DeepSeek-V3 ⾸创了⼀种⽆辅助损失策略(Wang et al., 2024a)⽤于负载均衡,旨在最⼩化因⿎励负载均衡⽽对模型性能产⽣的不利影响。其次,DeepSeek-V3 采⽤了多标记预测训练⽬标,我们观察到这增强了在评估基准上的整体性能。为了实现⾼效训练,我们⽀持 FP8 混合精度训练,并对训练框架实施全⾯优化。低精度训练已成为⾼效训练的⼀个有前景的解决⽅案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017;Peng et al., 2023b),其演变与硬件能⼒的进步密切相关(Luo et al., 2024; Micikevicius et al., 2022;Rouhani et al., 2023a)。在这项⼯作中,我们引⼊了 FP8 混合精度训练框架,并⾸次验证其在极⼤规模模型上的有效性。通过对 FP8 计算和存储的⽀持,我们实现了加速训练和减少 GPU 内存使⽤。⾄于训练框架,我们设计了 DualPipe 算法以实现⾼效的管道并⾏性,该算法具有更少的管道⽓泡,并通过计算-通信重叠在训练过程中隐藏了⼤部分通信。 这种重叠确保了,随着模型的进⼀步扩展,只要我们保持恒定的计算与通信⽐率,我们仍然可以在节点之间使⽤细粒度专家,同时实现接近零的全到全通信开销。此外,我们还开发了⾼效的跨节点全到全通信内核,以充分利⽤ InfiniBand (IB)和 NVL

立即下载
综合
2025-02-05
deepseek
53页
5.7M
收藏
分享

[deepseek]:DeepSeekV3技术报告,点击即可下载。报告格式为PDF,大小5.7M,页数53页,欢迎下载。

本报告共53页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共53页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
回顶部
报告群
公众号
小程序
在线客服
收起