计算机行业AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

AI 动态跟踪系列(三) 复杂推理大模型 OpenAI o1 亮相,数学与代码能力飞跃 行业动态跟踪报告 行业报告 计算机 2024 年 09 月 14 日 强于大市(维持) 行情走势图 相关研究报告 【平安证券】行业动态跟踪报告*计算机*AI 动态跟踪系列(二):英伟达 GTC 2024 AI 软件与应用有哪些看点?*强于大市 20240327 【平安证券】行业动态跟踪报告*计算机*AI 动态跟踪系列(一):Duolingo4Q23 业绩超预期,持续关注 AI+教育应用前景*强于大市 20240305 证券分析师 闫磊 投资咨询资格编号 S1060517070006 YANLEI511@pingan.com.cn 黄韦涵 投资咨询资格编号 S1060523070003 HUANGWEIHAN235@pingan.com.cn 研究助理 王佳一 一般证券从业资格编号 S1060123070023 WANGJIAYI446@pingan.com.cn 事项: 9 月 13 日,OpenAI 正式发布并上线 o1 系列模型 o1-preview 和 o1-mini。 平安观点:  OpenAI 计数器重置回 1,o1 系列开启复杂推理序幕。本次 OpenAI 发布的是 o1-preview(预览版)和 o1-mini(擅长 STEM、更快、更便宜)两个版本,ChatGPT 付费用户和 API 用户可以使用。根据 OpenAI 官网介绍,o1 系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI 认为 o1 是一个重大进步,代表了 AI 能力的新水平,鉴于此,OpenAI 将计数器重置回 1 并将此系列模型命名为 OpenAI o1。OpenAI 研究发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1 的性能会不断提高。因此在体验上,与此前模型不同点在于,OpenAI o1 在作出反应之前,需要像人类一样,花更多时间思考问题。  o1 基准表现明显优于 GPT-4o,数学与编码能力实现飞跃。OpenAI 实验结果表明,在绝大多数推理任务中,o1 的表现明显优于 GPT-4o。尤其是在具有挑战性的推理基准上,o1 实现了能力飞跃,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o 平均只能解决 12%的问题,o1 正式版达到平均 74%的准确率,在使用学习评分函数重新排名 1000个样本后准确率达到 93%,相当于美国排名前 500 的学生水平。2)编码能力:在竞争性编程问题(Codeforces)比赛中,o1-preview、o1 分别超越了 62%、89%的人类竞争者,而对比 GPT-4o 仅超过 11%。3)特定专业领域能力:GPQA diamond 测试(专门用于评估模型在化学、物理和生物学等领域的专业知识水平)中,o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在 GPQA diamond 基准上击败人类专家的 AI模型。  o1 引入思维链优化逻辑推理,助力模型性能与安全提升。o1 优越能力的背后,核心突破在于运用思维链(chain of thought)方法来处理复杂任务,OpenAI 介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时会使用思维链。通过强化学习,o1 学会打磨其思维链并改进它所使用的策略。o1 学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高了模型的推理能力。在 OpenAI 的一个官方演示中展示了o1-preview 解答复杂问题的逻辑推理过程,o1-preview 在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤,最终输出结论。同时,OpenAI 认为思维链推理也为大模型安全性的提升提供了新思路,o1-preview 在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。 AI 动态跟踪系列(三) 复杂推理大模型 OpenAI o1 亮相,数学与代码能力飞跃 行业动态跟踪报告 行业报告 计算机 2024 年 09 月 14 日 证券研究报告 计算机·行业动态跟踪报告 请通过合法途径获取本公司研究报告,,请慎重使用并注意阅读研究报告尾页的声明内容。 3/ 10  投资建议:OpenAI 推出专攻难题的 o1 系列大模型,应对复杂推理任务,o1 引入思维链(Chain of Thought)提升逻辑推理能力,绝大多数基准表现不仅明显超越 GPT-4o,而且在数学与编码能力上实现了重要飞跃,在理化生等专业领域的知识水平也达到新高度。OpenAI 的动向始终引领全球大模型的发展,我们认为 o1 的正式亮相有望开启复杂推理大模型的序幕,一方面对算力提出了更大需求,同时也将赋能下游 AI 应用(如编程、教育)的快速迭代。我们坚定看好 AI 主题的投资机会:1)算力方面,推荐工业富联、浪潮信息、中科曙光、紫光股份、神州数码、海光信息、龙芯中科,建议关注寒武纪、景嘉微、软通动力;2)算法方面,推荐科大讯飞;3)应用场景方面,强烈推荐中科创达、恒生电子、盛视科技,推荐金山办公,建议关注万兴科技、福昕软件、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。  风险提示:1)AI 算力供应链风险上升。2)大模型产品的应用落地低于预期。3)国产大模型算法发展可能不及预期。 计算机·行业动态跟踪报告 4/ 10 一、 OpenAI 计数器重置回 1,o1 系列开启复杂推理序幕 9 月 13 日,OpenAI 正式发布 o1 系列模型 o1-preview 和 o1-mini,发布即上线,ChatGPT 付费用户和 API 用户可以使用。 根据 OpenAI 官网,o1 系列模型被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI 认为 o1 是一个重大进步,代表了 AI 能力的新水平,鉴于此,OpenAI 将计数器重置回 1 并将此系列模型命名为 OpenAI o1。不过 OpenAI称,o1-preview(预览版)作为 o1 系列的早期版本,还不具备 ChatGPT 的许多有用功能,例如浏览网页获取信息、上传文件和图像等,因此对于许多常见情境,GPT-4o 在短期内可能会更有能力。 图表1 OpenAI 上线 o1-preview 和 o1-mini 资料来源:OpenAI 官网,平安证券研究所 OpenAI o1 在作出反应之前,需要像人类一样,花更多时间思考问题。OpenAI 称,o1 可以进行复杂任务推理,并解决比以前的科学、编码和数学模型更难的问题。OpenAI 的大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思维链进行高效思考。OpenAI 发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1 的性能会不断提高。不过这种方法的 Scaling 受到的限制与普通预训练有很大不同,Ope

立即下载
电子设备
2024-09-15
平安证券
10页
1.45M
收藏
分享

[平安证券]:计算机行业AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃,点击即可下载。报告格式为PDF,大小1.45M,页数10页,欢迎下载。

本报告共10页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共10页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
新材料公司 24Q2&24H1 经营简况
电子设备
2024-09-15
来源:建筑材料行业2024年中报总结:营收利润下滑,期待下半年顺周期板块修复
查看原文
浮法玻璃日熔量 图 73:重碱价格
电子设备
2024-09-15
来源:建筑材料行业2024年中报总结:营收利润下滑,期待下半年顺周期板块修复
查看原文
分年度全国平板玻璃价格 图 71:分年度全国平板玻璃库存
电子设备
2024-09-15
来源:建筑材料行业2024年中报总结:营收利润下滑,期待下半年顺周期板块修复
查看原文
2020Q2-2024Q2 单季度浮法玻璃行业营运能力 图 67:2020Q2-2024Q2 浮法玻璃行业二季度单季营运能力
电子设备
2024-09-15
来源:建筑材料行业2024年中报总结:营收利润下滑,期待下半年顺周期板块修复
查看原文
2020Q2-2024Q2 单季度浮法玻璃行业毛利率及净利率 图 65:2020Q2-2024Q2 浮法玻璃行二季度单季毛利率及净利率
电子设备
2024-09-15
来源:建筑材料行业2024年中报总结:营收利润下滑,期待下半年顺周期板块修复
查看原文
2023Q2-2024Q2 分季度光伏玻璃均价 图 60:2021Q2-2024Q2 分季度光伏新增装机
电子设备
2024-09-15
来源:建筑材料行业2024年中报总结:营收利润下滑,期待下半年顺周期板块修复
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起