科技行业动态点评-OpenAI+o1:大模型范式的转折点
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 科技 OpenAI o1:大模型范式的转折点 华泰研究 计算机 增持 (维持) 电子 增持 (维持) 研究员 谢春生 SAC No. S0570519080006 SFC No. BQZ938 xiechunsheng@htsc.com +(86) 21 2987 2036 研究员 袁泽世,PhD SAC No. S0570524090001 yuanzeshi@htsc.com +(86) 21 2897 2228 行业走势图 资料来源:Wind,华泰研究 重点推荐 股票名称 股票代码 目标价 (当地币种) 投资评级 沪电股份 002463 CH 49.50 买入 工业富联 601138 CH 30.00 买入 立讯精密 002475 CH 45.95 买入 鹏鼎控股 002938 CH 42.60 买入 水晶光电 002273 CH 23.80 买入 歌尔股份 002241 CH 29.26 买入 蓝思科技 300433 CH 23.40 买入 东山精密 002384 CH 27.60 买入 长电科技 600584 CH 40.00 买入 金山办公 688111 CH 252.33 买入 泛微网络 603039 CH 32.95 买入 萤石网络 688475 CH 36.86 买入 博通 AVGO US 181.25 买入 微软(Microsoft) MSFT US 512.72 买入 奥多比(Adobe) ADBE US 704.55 买入 资料来源:华泰研究预测 2024 年 9 月 22 日│中国内地 动态点评 OpenAI 发布 o1 模型,标志着大模型的训练范式向推理侧转移 9 月 12 日,OpenAI 官方发布最新模型 o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为,o1 的意义在以下几个方面:1)大模型 Scaling Law 的重心由预训练向后训练和推理侧转移。2)RL 和长 CoT 的使用,定性增加了后训练和推理所需的算力。3)目前 o1 擅长的领域仍然是强推理需求的数学、代码、物理等领域,后续随着 RL 的进一步迭代,多领域泛化能力有望提升。建议关注国内算力链、苹果链和核心 AI 应用相关公司。 大模型训练范式:Scaling Law 重心从预训练向后训练和推理转移 2020 年 OpenAI 提出的 Scaling Law 是大模型迭代的重要基础理论。o1 之前,Scaling Law 的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1 发布后,OpenAI 指出,在预训练 Scaling Law 的同时,通过在后训练引入 RL 并且在推理中增加长 CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即 Scaling Law 在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1 的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。 新范式下的算力消耗:定性看,需要更多的训练和推理算力 o1 之前的模型如 GPT-4o,经历了预训练和后训练(基于人类反馈的强化学习 RLHF)两个主要阶段,推理则采用单次推理或短 CoT。我们认为,o1模型在预训练阶段算力变化或不大,旨在保证模型有着较好的通用能力。后训练阶段由于采用了 RL,需要通过不断搜索的方式来迭代输出优化结果,因此算力消耗有望上升。推理阶段,o1 在 RL 训练下学会了内部长 CoT,推理所需 token 增长明显,因此推理算力相比之前的单次推理或显著上升。综上,在新的大模型训练范式下,定性看,模型需要更多的训练和推理算力。 目前 o1 擅长强逻辑推理,后续迭代有望提升其泛化能力 据 OpenAI 官网,对于 AIME 考试(类似美国高中生奥赛),o1 在每个问题只有一个样本的情况下准确率平均为 74,相比 GPT-4 提升了 62。GPQA diamond(化学、物理和生物学方面的专业知识)测试中,o1 超过了PhD-Level 人类专家。我们认为,由于 RL 中奖励函数设置需要明确的“对错”概念,因此 o1 目前更擅长强逻辑和数学等有明确对错的问题推理。但是随着 RL+CoT 范式的不断迭代,o1 及后续模型有望出现“涌现”现象,将能力泛化到强逻辑以外的通用问题领域,或有利于复杂 AI 应用的迭代。 风险提示:宏观经济波动,AI 技术进步不及预期。 (35)(24)(13)(2)9Sep-23Jan-24May-24Sep-24(%)计算机电子沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 科技 o1 模型标志着大模型的训练范式向推理侧转移 OpenAI 最新模型 o1 标志着大模型训练范式从预训练向推理侧的转移。9 月 12 日,OpenAI官方发布最新模型 o1,指出其最大特点在于接受了强化学习(RL)训练,并在模型推理时采用更长的内部思维链(chain of thought,CoT),实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。例如对于 AIME 考试(类似美国高中生奥赛),o1 在每个问题只有一个样本的情况下准确率平均为 74,相比 GPT-4 提升了 62。GPQA diamond(化学、物理和生物学方面的专业知识)测试中,o1 超过了 PhD-Level 人类专家。我们认为,RL+CoT的范式,效果上显著增强了模型强逻辑推理能力,后续国内外的大模型厂商,或将沿 RL+CoT的新路线持续迭代模型。 图表1: OpenAI o1 在复杂测评集上显著超越 GPT-4o 资料来源:OpenAI 官网、华泰研究 o1 实质上表明大模型训练的重心由预训练转移到后训练和推理。2020 年 OpenAI 提出的Scaling Law 是大模型迭代的重要基础理论。o1 之前,Scaling Law 的重心在预训练,通过给予大模型更多的参数、训练数据和算力,提升模型的智能表现。o1 发布后,OpenAI 指出,在预训练 Scaling Law 的同时,通过在后训练引入 RL 并且在推理中增加长 CoT(意味着更多的计算),同样能够大幅提升模型的性能表现,即 Scaling Law 在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为,o1 的问世,为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。 图表2: OpenAI 提出的 Scaling Law 指导大语言模型的训练 资料来源:OpenAI 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 3 科技 图表3: OpenAI o1 标志着大模型训练重心由预训练转移到了后训练和推理 资料来源:
[华泰证券]:科技行业动态点评-OpenAI+o1:大模型范式的转折点,点击即可下载。报告格式为PDF,大小0.95M,页数11页,欢迎下载。
