计算机行业-o1进展追踪与评测：Reasoning能力究竟有多强？

中泰证券研究所专业｜领先｜深度｜诚信｜证券研究报告｜2 0 2 4 . 0 9 . 1 7o1进展追踪与评测：Reasoning能力究竟有多强？分析师：闻学臣执业证书编号：S0740519090007Email：wenxc@zts.com.cn联系人：王雪晴Email：wangxq03@zts.com.cn2 o1模型带来推理能力的大幅提升，在数学、编程和科学问题中表现最好，有望加速相关应用落地。OpenAI发布o1模型，开放o1-preview和o1-mini版本给用户，o1-preview版本推理能力更强，o1-mini速度更快，价格便宜80%。GPQA diamond测试中，o1的表现超过了博士学位的人类专家；在我们的测试中，o1在推理类问题中表现普遍较4o更好，但在写作任务中表现接近。我们认为，o1在推理能力上的提升有助于解决复杂逻辑问题，将进一步加速相关应用落地。 o1的内部CoT过程大幅提升推理算力要求，对其提问次数限制更严格、定价更高，推理算力需求或将攀升。此次发布模型对用户提问次数有较大限制，Plus和Team用户可使用，o1-preview/o1-mini每周发送消息条数限制为30/50条。o1的模型定价为输入$15/1M tokens，输出$60/1M tokens；较gpt-4o输入$5/1M tokens，输出$15/1M tokens定价更高。 训练方式采用强化学习加强CoT，scaling law是否依旧是模型主流迭代方向还需验证追踪。通过强化学习，o1能够改进其CoT过程，不断分解问题、纠错和尝试其他可行的解决办法，思考过程类似人类。随着强化学习（训练时间）的增加和思考（测试时间）的增加，o1 的性能会持续提高。这种提升性能的方式与scaling law扩大预训练规模的方式有所不同，强化学习+CoT或将成为模型迭代的新范式。 风险提示：AI技术落地不及预期、数据更新不及时、安全风险等报告摘要3 算力方向，当前基本面高景气确定性较高，建议关注浪潮信息、神州数码、中科曙光、海光信息、首都在线、云天励飞、紫光股份等； 模型方向，建议关注科大讯飞、格灵深瞳、商汤、云从科技等； 应用方向，金融场景建议关注恒生电子、顶点软件、同花顺、中科软、宇信科技、百融云、京北方、天阳科技、长亮科技、新致软件等；医疗场景建议关注卫宁健康、创业慧康、嘉和美康、医渡科技、鹰瞳科技等；工业场景建议关注广联达明源云、国能日新、东方电子、云鼎科技、朗新集团等；其他建议关注焦点科技、万兴科技、萤石网络、鼎捷软件、拓尔思、佳发教育、神思电子、鸥玛软件、金桥信息等。 风险提示：AI技术落地不及预期、数据更新不及时、安全风险等投资建议4CONTENTS目录CCONTENTS专业｜领先｜深度｜诚信中泰证券研究所1o1：为推理而生的模型，强化学习+CoT或成模型迭代新范式5 OpenAI发布了o1-preview和o1-mini两个版本的模型。其中o1-preview是这个模型的早期版本，而OpenAI o1-mini是这个模型的一个更快的版本，在编程领域非常有效。 ChatGPT Plus 和 Team用户将能够在 ChatGPT 中访问 o1 模型。 在绝大多数推理能力较强的任务中，o1 的表现明显优于 GPT-4o。1.1 模型版本：OpenAI公布o1模型，公开发布o1-preview与o1-mini图表：o1模型表现在多个基准中超越gpt4o资料来源：OpenAI、中泰证券研究所6图表：模型定价（统计时间2024年9月13日）资料来源：OpenAI、中泰证券研究所 与人类在回答难题之前会长时间思考的方式类似，o1 在尝试解决问题时会使用CoT（Chain of Thoughts）。通过强化学习，o1 不断更新其使用的CoT策略，能够学会识别和纠正错误，将棘手的步骤分解为更简单的步骤，并在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。 OpenAI对模型的调用次数限制较大，这可能源于较长的CoT过程需要更多推理算力。o1-preview 和 o1-mini 都可以在模型选择器中手动选择，在发布时，每周发送消息次数限制为 o1-preview 30 条消息和 o1-mini 50 条消息。o1的模型定价较gpt-4o也更高。1.2 强化学习+CoT训练方式大幅提升推理能力，推理算力需求或攀升输出定价输入定价$15/1M output tokens$5/1M input tokensgpt-4o$60/1M output tokens$15/1M input tokenso1-preview$12/1M output tokens$3/1M input tokenso1-mini7 O1-preview和o1-mini在不同的数据集上进行了预训练，包括公开可用的数据、通过合作伙伴关系访问的专有数据和内部开发的定制数据集，这些数据集共同有助于模型的稳健推理和会话能力。 选择的公共数据（Select Public Data）：这两个模型在公开可用的数据集上进行训练，包括网络数据和开源数据集，关键包括推理数据和科学文献。这确保了模型精通一般知识和技术主题，增强了它们执行复杂推理任务的能力。 来自数据合作伙伴的专有数据（Proprietary Data from Data Partnerships）：包括付费内容、专门档案和其他特定领域的数据集，这些数据集对特定行业的知识和用例提供更深入的见解。 过滤和提炼数据（Data Filtering and Refinement）：数据处理过程中进行了严格的过滤以减少从训练数据中获得的个人信息；OpenAI还结合使用了审核API和安全分类器，以防止使用有害或敏感的内容。1.3 o1使用三类数据集进行预训练8图表：人类偏好评测结果资料来源：OpenAI、中泰证券研究所1.4 人类偏好评测：推理问题中o1大幅领先，写作等部分任务表现不如gpt-4o 在数据分析、编码和数学等推理能力较强的类别中，o1-preview 的受欢迎程度远远高于 gpt-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例。9图表：Scaling Law资料来源：Scaling Laws for Neural Language Models、中泰证券研究所图表：o1的模型表现随训练和测试时间而增强资料来源：OpenAI、中泰证券研究所 OpenAI发现随着强化学习的增加（以训练时间计算）和思考时间的增加（以测试时间计算），o1 的性能会持续提高。OpenAI也认为这种扩展训练和测试时间的限制与扩展大模型预训练规模的限制完全不同。1.5 挑战Scaling Law的结论：训练/推理时间越久，能力越强O1的模型表现随训练和测试时间增加而增强Scaling Law：模型表现随消耗算力（预训练数据集、参数规模）增大而增强10CONTENTS目录CCONTENTS专业｜领先｜深度｜诚信中泰证券研究所2多维问题测评11

立即下载

电子设备

2024-09-19

中泰证券

22页

6.21M

[中泰证券]:计算机行业-o1进展追踪与评测：Reasoning能力究竟有多强？，点击即可下载。报告格式为PDF，大小6.21M，页数22页，欢迎下载。

本报告共22页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共22页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机行业-o1进展追踪与评测：Reasoning能力究竟有多强？

关于我们

联系我们

计算机行业-o1进展追踪与评测：Reasoning能力究竟有多强？

关于我们

联系我们

小程序

公众号