计算机行业周观点第23期：推理层面的Scaling law，正在出现

1 | 请务必仔细阅读报告尾部的投资评级说明和声明行业周报 | 计算机推理层面的 Scaling law，正在出现计算机行业周观点第 23 期  核心结论分析师郑宏达 S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 联系人卢可欣 16621642550 lukexin@research.xbmail.com.cn 相关研究计算机：计算机行业 2024 年中报深度解析— 2024-09-07 计算机：交互型多模态大模型有望带来应用的爆发起点 — 人工智能系列报告（六） 2024-09-03 计算机：科技自主的道路是星辰大海—计算机行业 2024 年 9 月研究观点 2024-08-30 北京时间 2024 年 9 月 13 日，OpenAI 发布 o1 系列大模型，同时在技术博客《Learning to Reason with LLMs》中对 o1 模型做了详细介绍。 o1 系列模型是 OpenAI 首个经过强化学习训练的模型——它在输出回答前会思考，会在产生一个很长的内部思维链。与人在回答难题之前进行长时间思考类似，o1 在尝试解决问题时会使用思维链。通过强化学习，o1 学会了：1）完善思维链并改进策略；2）学会了识别和纠正错误；3）将困难的步骤分解为更简单的步骤；4）在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。推理层面的 Scaling Law 正在出现，即推理（思考）的增加也能大幅提高模型的性能。大规模的强化学习可以教会大模型如何在高数据效率的训练过程中使用其思维链进行高效思考。OpenAI 在技术报告中表示，随着强化学习（训练时计算）的增加和思考时间的增加（测试时计算），o1 的性能会不断提高，也就是说模型可以通过推理阶段更多的思考来提升逻辑推理能力，做出更优质的决策和回答。 o1 系列包含 OpenAI o1、OpenAI o1-preview 和 OpenAI o1-mini 三款模型，o1-mini 未来或将免费开放。1）o1：该系列最强的模型，暂未对外公开；2）o1-preiview：o1 的早期版本，可以立即提供给 ChatGPT 付费用户和 API 用户，目前每位用户每周仅能给 o1-preview 发送 30 条消息；3）o1-mini：是一个更小的模型，在预训练期间针对 STEM 推理进行了优化，速度更快，擅长编程；性价比更高，整体来看，o1-mini 的成本比 o1-preview 低 80%；目前每周只能发 50 条消息。OpenAI 表示，未来将向所有 ChatGPT 免费用户提供 o1-mini 的访问权限。在编程、数学等需要强推理能力的领域，o1 模型表现优异。在许多推理为主的基准测试中，o1 的表现甚至可以与人类专家媲美。在 2024 年的 AIME （美国顶尖高中数学竞赛）中，GPT-4o 平均能解决 12%（1.8/15）的问题，而 o1 能解决超 70%的问题，甚至在使用学习的评分函数对 1000 个样本重新排序后能达到了 93%（13.9/15），排名全美前 500 名。在 GPQA Diamond （智力基础测试，用于测试化学、物理和生物方面的专业知识）中，o1 的表现超过了一些人类专家，成为第一个在该基准测试中实现达到此成就的模型。编程领域，基于 o1 进行了初始化并进一步训练了其编程技能后，OpenAI 得到了一个非常强大的编程模型（o1-ioi），该模型在 2024 年国际信息学奥林匹克竞赛（IOI）赛题上得到了 213 分，达到了排名前 49%的水平。相关公司：寒武纪、海光信息、工业富联。风险提示：技术进展不及预期、应用落地不及预期、行业竞争加剧。证券研究报告 2024 年 09 月 13 日行业周报 | 计算机西部证券 2024 年 09 月 13 日 2 | 请务必仔细阅读报告尾部的投资评级说明和声明图 1：o1-preview 的思维链资料来源：OpenAI 官网、西部证券研发中心图 2：强化学习（训练时计算）的增加和思考时间的增加（测试时计算），o1 的性能会不断提高资料来源：OpenAI 官网、西部证券研发中心行业周报 | 计算机西部证券 2024 年 09 月 13 日 3 | 请务必仔细阅读报告尾部的投资评级说明和声明图 3：o1 在数学、编程等需要强推理能力的领域相比 GPT-4o 有了很大的提升资料来源：OpenAI 官网、西部证券研发中心图 4：与 GPT-4o 相比，o1 在数理化生、英语法律经济等各种科目上均有提升资料来源：OpenAI 官网、西部证券研发中心行业周报 | 计算机西部证券 2024 年 09 月 13 日 4 | 请务必仔细阅读报告尾部的投资评级说明和声明西部证券—投资评级说明超配：行业预期未来 6-12 个月内的涨幅超过市场基准指数 10%以上行业评级中配：行业预期未来 6-12 个月内的波动幅度介于市场基准指数-10%到 10%之间低配：行业预期未来 6-12 个月内的跌幅超过市场基准指数 10%以上买入：公司未来 6-12 个月的投资收益率领先市场基准指数 20%以上公司评级增持：公司未来 6-12 个月的投资收益率领先市场基准指数 5%到 20%之间中性：公司未来 6-12 个月的投资收益率与市场基准指数变动幅度相差-5%到 5% 卖出：公司未来 6-12 个月的投资收益率落后市场基准指数大于 5% 报告中所涉及的投资评级采用相对评级体系，基于报告发布日后 6-12 个月内公司股价（或行业指数）相对同期当地市场基准指数的市场表现预期。其中，A 股市场以沪深 300 指数为基准；香港市场以恒生指数为基准；美国市场以标普 500 指数为基准。分析师声明本人具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师，以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。联系地址联系地址：上海市浦东新区耀体路 276 号 12 层北京市西城区丰盛胡同 28 号太平洋保险大厦 513 室深圳市福田区深南大道 6008 号深圳特区报业大厦 10C 联系电话： 021-38584209 免责声明本报告由西部证券股份有限公司（已具备中国证监会批复的证券投资咨询业务资格）制作。本报告仅供西部证券股份有限公司（以下简称“本公司”）机构客户使用。本报告在未经本公司公开披露或者同意披露前，系本公司机密材料，如非收件人（或收到的电子邮件含错误信息），请立即通知发件人，及时删除该邮件及所附报告并予以保密。发送本报告的电子邮件可能含有保密信息、版权专有信息或私人信息，未经授权者请勿针对邮件内

立即下载

电子设备

2024-09-14

西部证券

4页

0.77M

[西部证券]:计算机行业周观点第23期：推理层面的Scaling law，正在出现，点击即可下载。报告格式为PDF，大小0.77M，页数4页，欢迎下载。

本报告共4页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共4页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机行业周观点第23期：推理层面的Scaling law，正在出现

关于我们

联系我们

计算机行业周观点第23期：推理层面的Scaling law，正在出现

关于我们

联系我们

小程序

公众号