软件与服务行业AI产业速递:DeepSeek-R1发布,推理性能对标o1

请阅读最后评级说明和重要声明 丨证券研究报告丨 行业研究丨点评报告丨软件与服务 [Table_Title] AI 产业速递:DeepSeek-R1 发布,推理性能对标 o1 报告要点 [Table_Summary]2025 年 1 月 20 日,DeepSeek-R1 正式发布,其基于强化学习技术,DeepSeek-R1 在极少标注数据条件下显著提升模型推理能力,在数学、代码、自然语言推理等任务上性能对齐 OpenAI o1 模型。R1 模型显示国产模型推理能力对齐业界领先水平,看好推理算力与应用侧受益。建议关注:1)中国领先的 AI 大模型厂商,重点推荐国产大模型领军企业科大讯飞;2)中国推理算力产业链,重点推荐国内 AI 芯片领军企业寒武纪。 分析师及联系人 [Table_Author] 宗建树 宋浪 SAC:S0490520030004 SFC:BUX668 %%%%%%%%research.95579.com1 请阅读最后评级说明和重要声明 丨证券研究报告丨 更多研报请访问 长江研究小程序 软件与服务 cjzqdt11111 [Table_Title2] AI 产业速递:DeepSeek-R1 发布,推理性能对标 o1 行业研究丨点评报告 [Table_Rank] 投资评级 看好丨维持 [Table_Summary2] 事件描述 2025 年 1 月 20 日,DeepSeek-R1 正式发布并同步开源模型权重。基于强化学习技术,DeepSeek-R1 在极少标注数据条件下显著提升模型推理能力,在数学、代码、自然语言推理等任务上性能对齐 OpenAI o1 模型。 事件评论 ⚫ R1 模型的核心突破在于不借助监督数据,而通过专注 RL 过程的自我进化提升模型推理能力。根据官方论文,首先介绍 DeepSeek-R1-Zero 模型的变化:1)以 DeepSeek-V3-Base 作为基础模型,采用群组相对策略优化算法(GRPO)作为 RL 框架,以降低 RL 的训练成本。2)奖励决定 RL 的优化方向,DeepSeek 采用基于规则的奖励系统,由准确性奖励和格式奖励两部分组成。3)培训模板,通过设计模板规范 R1 模型推理过程,避免产生基于特定内容的偏见。结合上述三点实现的 DeepSeek-R1-Zero 模型表现出强大的推理能力,但具有易读性差及语言混合等问题。于是 DeepSeek 进一步优化并推出 R1模型,方法包括:1)RL 初期构建并收集少量长 CoT 数据进行微调,防止 RL 训练早期出现不稳定的冷启动阶段;2)在 R1-Zero 的大规模强化学习训练过程引入语言一致性奖励,减少语言混合问题;3)通过拒绝采样和监督微调以增强模型在写作、角色扮演和其他通用任务中的能力。4)实施二级强化学习阶段以进一步令模型与人类偏好保持一致。 ⚫ 推理性能比肩 OpenAI o1 模型,同时具备性价比优势。从模型效果看,DeepSeek-R1 在多项任务上表现比肩 OpenAI o1 模型:1)推理任务:DeepSeek-R1 在 AIME 2024 上获得 79.8% Pass@1 的分数,略高于 OpenAI-o1-1217;在 MATH-500 上获得了 97.3%的分数,与 OpenAI-o1-1217 性能相当,并且明显优于其他模型。2)编码任务:DeepSeek-R1 具备代码竞赛任务专家的水平,在 Codeforce 上获得了 2029 个 Elo 评级,超过了竞争中 96.3%的人类参与者。3)知识任务:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 得分分别为 90.8%、84.0%和 71.5%,优于 DeepSeek-V3 及其他闭源模型,略低于 OpenAI-o1-1217。4)其他任务: DeepSeek-R1 在创意写作、一般问题回答、编辑、总结等广泛任务中表现出色,其于 AlpacaEval 2.0 上的长度控制胜率达到 87.6%,在 Arena Hard 上实现 92.3%的胜率,体现强大的智能处理非应试查询能力。从定价看,DeepSeek-R1 API 服务的定价为每百万输入 tokens1 元(缓存命中)/4 元(缓存未命中),每百万输出 tokens16 元,显著低于 o1(每百万输入 tokens 15 美元、每百万输出 tokens 60 美元),具备性价比优势。 ⚫ 投资建议:国产模型推理能力对齐业界领先水平,看好推理算力与应用侧受益。一方面,国产推理模型持续迭代,推理侧的 scaling up 将带来推理算力需求的显著提升;另一方面,通过利用 DeepSeek-R1 整理的 80 万个样本进行微调,小型模型推理能力显著提升,或加速垂类模型应用落地进程。建议关注:1)中国领先的 AI 大模型厂商,重点推荐国产大模型领军科大讯飞;2)中国推理算力产业链,重点推荐国内 AI 芯片领军寒武纪。 风险提示 1、AI 技术发展不及预期; 2、下游应用需求不及预期。 市场表现对比图(近 12 个月) 资料来源:Wind 相关研究 [Table_Report]•《算力产业跟踪:太行算力中心二期获批,字节算力布局持续升级》2025-01-21 •《Neuralink 完成第三例人体手术,脑机接口商业化稳步推进》2025-01-17 •《国家层面系统规划,数据标注产业有望加速发展》2025-01-16 -20%2%24%47%2024/12024/52024/92025/1软件与服务沪深300指数2025-01-23%%%%%%%%research.95579.com2 请阅读最后评级说明和重要声明 3 / 6 行业研究 | 点评报告 图 1:DeepSeek-R1 模型基准测试比肩 o1 资料来源:github,DeepSeek 官方技术论文,长江证券研究所 图 2:DeepSeek-R1 模型在多项任务上得分领先 资料来源:github,DeepSeek 官方技术论文,长江证券研究所 %%research.95579.com3 请阅读最后评级说明和重要声明 4 / 6 行业研究 | 点评报告 风险提示 1、AI 技术发展不及预期,本次大模型创新伴随参数量及模态的增速能力天花板尚未达到,但模型效果本身仍存瓶颈及问题,倘若 AI 技术发展不及预期,投入厂商仍然存在失败风险。 2、下游应用需求不及预期,人工智能本质是通过供给创新催生需求扩容,目前大模型仍处于商业模式摸索期,倘若本轮技术变革无法真实带动下游需求,投入厂商将受到影响。 %%%%%%%%research.95579.com4 请阅读最后评级说明和重要声明 5 / 6 行业研究 | 点评报告 投资评级说明 行业评级 报告发布日后的 12 个月内行业股票指数的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评级标准为: 看 好: 相对表现优于同期相关证券市场代表性指数 中 性: 相对表现与同期相关证券市场代表性指数持平 看

立即下载
信息科技
2025-01-24
长江证券
6页
0.9M
收藏
分享

[长江证券]:软件与服务行业AI产业速递:DeepSeek-R1发布,推理性能对标o1,点击即可下载。报告格式为PDF,大小0.9M,页数6页,欢迎下载。

本报告共6页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共6页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
利润表预测
信息科技
2025-01-24
来源:TCL电子(01070)励精图治,焕发生机
查看原文
营业收入预测
信息科技
2025-01-24
来源:TCL电子(01070)励精图治,焕发生机
查看原文
可比公司估值水平4
信息科技
2025-01-24
来源:TCL电子(01070)励精图治,焕发生机
查看原文
2023 年股权激励计划3
信息科技
2025-01-24
来源:TCL电子(01070)励精图治,焕发生机
查看原文
全品类营销业务营收 图 86:全品类营销业务毛利率
信息科技
2025-01-24
来源:TCL电子(01070)励精图治,焕发生机
查看原文
TCL 光伏合作伙伴
信息科技
2025-01-24
来源:TCL电子(01070)励精图治,焕发生机
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起