计算机行业专题报告：DeepSeek-R1，强化学习+知识蒸馏，比肩O1

计算机 / 行业专题报告 / 2025.01.22 请阅读最后一页的重要声明！ DeepSeek-R1：强化学习+知识蒸馏，比肩 o1 证券研究报告投资评级:看好(维持) 最近 12 月市场表现分析师杨烨 SAC 证书编号：S0160522050001 yangye01@ctsec.com 相关报告 1. 《一文读懂美国 BIS 最新禁令》 2025-01-19 2. 《大模型系列报告（一）：Transformer架构的过去、现在和未来》 2025-01-19 3. 《电力信息化研究框架：（一）总章》 2025-01-14 核心观点 ❖ DeepSeek-R1 发布，对标 OpenAI o1 正式版。1 月 20 日，DeepSeek 正式发布一系列 DeepSeek-R1 模型，包括 DeepSeek-R1-Zero、DeepSeek-R1 和DeepSeek-R1-Distill 系列。DeepSeek-R1 模型推理能力优异，基准测试表现与OpenAI-o1-1217 相当，且 API 服务定价远低于 OpenAI 同类产品。 ❖ 大规模强化学习，激发大模型推理潜能：DeepSeek-R1-Zero 在技术路线上实现了突破性创新，成为首个完全摒弃监督微调环节、完全依赖强化学习训练的大语言模型，证明了无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力。在此基础上，DeepSeek-R1 对 R1-Zero 进行了改进。通过引入冷启动数据，并历经推理导向强化学习、拒绝采样、监督微调以及全场景强化学习的多阶段训练，充分发挥了强化学习的自学习和自进化能力。 ❖ 知识蒸馏技术，让小模型也能“聪明”推理：DeepSeek 团队深入探索了将 R1 的推理能力蒸馏到更小模型中的潜力，发现经过 R1 蒸馏的小模型在推理能力上实现了显著提升，甚至超过了在这些小模型上直接进行强化学习的效果，证明了 R1 学到的推理模式具有很强的通用性和可迁移性，能够通过蒸馏有效传递给其他模型。这些结论为业界提供了新的启示：对小模型而言，蒸馏优于直接强化学习，大模型学到的推理模式在蒸馏中得到了有效传递。 ❖ DeepSeek-R1 高性价比 API 定价，极具商业化落地潜力： DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/4 元（缓存未命中），每百万输出 tokens 16 元，远低于可比大模型 API 服务。DeepSeek-R1 的高性价比 API 定价有助于开发者在使用后加速模型的功能迭代，从而解决目前模型存在的不足。 ❖ 强化学习与知识蒸馏，DeepSeek 引领大小模型创新之路：对于大模型，DeepSeek-R1-Zero 展示的无 SFT 的强化学习技术为大模型开发者提供了一种新的训练范式，即通过强化学习来激发模型的内在潜力，从而在多个领域实现更高效、更精准的推理能力。对于小模型，DeepSeek-R1-Distill 系列通过知识蒸馏技术，成功将大模型的推理能力传递给小模型，实现了小模型在推理任务上的显著提升，引领了小模型的发展方向。 ❖ 投资建议：建议重点关注基础设施领域的公司，如英伟达、海光信息、寒武纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创、申菱环境、东阳光等，同时持续关注全球各大模型厂商、学界的创新进展。 ❖ 风险提示：技术迭代不及预期的风险；商业化落地不及预期的风险；政策支持不及预期风险；全球宏观经济风险。 -18%-5%9%22%36%49%计算机沪深300上证指数谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 DeepSeek-R1 发布，对标 OpenAI o1 正式版 ...................................................................................... 3 2 大规模强化学习：激发大模型推理潜能 ............................................................................................... 4 2.1 DeepSeek-R1-Zero：以强化学习完全取代监管微调 ...................................................................... 4 2.2 DeepSeek-R1：引入冷启动与多阶段训练 ....................................................................................... 5 3 知识蒸馏技术：让小模型也能“聪明”推理 ....................................................................................... 7 4 DeepSeek-R1 高性价比 API 定价，极具商业化落地潜力 .................................................................. 9 5 总结和启示：强化学习与知识蒸馏，DeepSeek 引领 LLM 创新之路 ............................................ 10 6 投资建议 ................................................................................................................................................. 11 7 风险提示 ................................................................................................................................................. 11 图 1. DeepSeek 发布 DeepSeek-R1 模型 ....................................................................................................... 3 图 2. DeepSeek-R1 与 OpenAI 同类产品的基准测试比较 .......................................................................... 3 图 3. 随着 RL 训练推进，DeepSeek-R1-Zero 的 AIME 2024 基准测试成绩稳定且持续提升 .............. 4 图 4. DeepSeek-

立即下载

电子设备

2025-01-23

财通证券

13页

[财通证券]:计算机行业专题报告：DeepSeek-R1，强化学习+知识蒸馏，比肩O1，点击即可下载。报告格式为PDF，大小2M，页数13页，欢迎下载。

本报告共13页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共13页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机行业专题报告：DeepSeek-R1，强化学习+知识蒸馏，比肩O1

关于我们

联系我们

计算机行业专题报告：DeepSeek-R1，强化学习+知识蒸馏，比肩O1

关于我们

联系我们

小程序

公众号