计算机行业:DeepSeek+R1深度解析及算力影响几何
DeepSeek R1深度解析及算力影响几何证券研究报告行业动态研究发布日期:2025年2月3日分析师:于芳博yufangbo@csc.com.cnSAC编号:S1440522030001本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。分析师:庞佳军pangjiajun@csc.com.cnSAC 编号:S1440524110001分析师:辛侠平xinxiaping@csc.com.cnSAC编号:S1440524070006研究助理:孟龙飞menglongfei@csc.com.cn010-56135277摘要摘要核心观点: Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeek R1训练和推理算力需求较低,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。Deepseek发布深度推理能力模型,性能和成本方面表现出色。Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用纯粹的强化学习训练,模型效果逼近OpenAI o1模型,证明了大语言模型仅通过RL,无SFT,大模型也可以有强大的推理能力。但是R1-Zero也存在可读性差和语言混合的问题,在进一步的优化过程中,DeepSeek-V3-Base经历两次微调和两次强化学习得到R1模型,主要包括冷启动阶段、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习四个阶段,R1在推理任务上表现出色,特别是在AIME 2024、MATH-500和Codeforces等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。国产模型迈向深度推理,策略创新百花齐放。在Deepseek R1-Zero模型中,采用的强化学习策略是GRPO策略,取消价值网络,采用分组相对奖励,专门优化数学推理任务,减少计算资源消耗; KIMI 1.5采用Partial rollout的强化学习策略,同时采用模型合并、最短拒绝采样、DPO 和long2short RL策略实现短链推理; Qwen2.5扩大监督微调数据范围以及两阶段强化学习,增强模型处理能力。DeepSeek R1通过较少算力实现高性能模型表现,主要原因是DeepSeek R1实现算法、框架和硬件的优化协同。 DeepSeek R1在诸多维度上进行了大量优化,算法层面引入专家混合模型、多头隐式注意力、多token预测,框架层面实现FP8混合精度训练,硬件层面采用优化的流水线并行策略,同时高效配置专家分发与跨节点通信,实现最优效率配置。当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段,算力的整体需求也从预训练阶段逐步过渡向后训练和推理侧,通过大量协同优化,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现,算力行业的长期增长逻辑并未受到挑战。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。风险提示:大模型技术发展不及预期、商业化落地不及预期、政策监管力度不及预期、数据数量与数据质量不及预期。第一章国内模型深度推理发展现状4第二章低算力需求缘起及长期算力观点20第四章风险提示33第三章相关问答案例27第一章国内模型深度推理发展现状4R1-Zero验证了大模型仅通过RL就可实现强大推理能力图:R1-Zero在AIME 2024基准测试上的性能测试图:强化学习过程中的scaling law Deepseek发布两款具备深度推理能力的大模型R1-Zero和DeepSeek-R1。 R1-Zero的训练,证明了仅通过RL,无SFT,大模型也可以有强大的推理能力。在AIME 2024上,R1-Zero的pass@1指标从15.6%提升至71.0%,经过投票策略(majority voting)后更是提升到了86.7%,与OpenAI-o1-0912相当。 架构思路:没有任何SFT数据的情况下,通过纯粹的强化学习。 算法应用:直接在DeepSeek-V3-Base模型上应用GRPO算法进行强化学习训练。 奖励机制:使用基于规则的奖励机制,包括准确性奖励和格式奖励,来指导模型的学习。 训练模板:采用了简洁的训练模板,要求模型首先输出推理过程(置于标签内),然后给出最终答案(置于标签内)。资料来源:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,中信建投DeepSeek-R1:长CoT数据微调基础上应用强化学习图:DeepSeek-R1训练过程 为了解决R1-Zero可读性差和语言混合的问题,构建了R1。 架构思路:在DeepSeek-V3-Base模型的基础上,经历两次微调和两次强化学习得到R1模型。 Step 1.冷启动阶段:使用数千个高质量的长Cot人工标注样本对DeepSeek-V3-Base模型进行微调,作为强化学习的初始模型。 Step 2.面向推理的强化学习:在冷启动阶段之后,R1采用了与R1-Zero类似的强化学习训练,但针对推理任务进行了特别优化。为了解决训练过程中可能出现的语言混杂问题,R1引入了语言一致性奖励,该奖励根据CoT中目标语言单词的比例来计算。 Step 3.拒绝采样与监督微调:当面向推理的强化学习收敛后,R1利用训练好的RL模型进行拒绝采样,生成新的SFT数据。 Step 4.面向全场景的强化学习:在收集了新的SFT数据后,R1会进行第二阶段的强化学习训练,这一次,训练的目标不再局限于推理任务,而是涵盖了所有类型的任务。此外,R1采用了不同的奖励信号和提示分布,针对不同的任务类型进行了优化。冷启动强化学习拒绝采样全场景强化学习蒸馏小模型监督微调纯强化学习资料来源:DeepSeek,huggingface,中信建投R1模型推理任务表现出色图表:R1在数学、代码、自然语言推理等任务的性能测试结果 R1在推理任务上表现出色,特别是在AIME 2024(美国数学邀请赛)、MATH-500(数学竞赛题)和Codeforces(编程竞赛)等任务上,取得了与OpenAI-o1-1217相媲美甚至超越的成绩。在MMLU(90.8%)、MMLU-Pro(84.0%)和GPQADiamond(71.5%)等知识密集型任务基准测试中,性能显著超越了DeepSeek-V3模型。在针对长上下文理解能力的FR
[中信建投]:计算机行业:DeepSeek+R1深度解析及算力影响几何,点击即可下载。报告格式为PDF,大小5.17M,页数36页,欢迎下载。
