通信行业深度:“合成数据%2b强化学习”-大模型进化的新范式

证券研究报告 | 行业深度 请仔细阅读本报告末页声明 gszqdatemark 通信 “合成数据+强化学习”:大模型进化的新范式 当地时间 9 月 12 日,OpenAI 发布新模型系列 o1(代号“草莓”),该模型的特点主要是在给出推理结果前,花更多时间“思考”,产生较长内部思维链,在解决科学、数学、代码等类问题的表现更好。o1-preview 每百万 token 输入 15 美元,每百万输出 token60 美元,o1-mini 相对便宜,每百万 token 输入 3 美元,每百万 token 输出 12 美元。目前 ChatGPT Plus和 Team 用户可以在模型选取器中手动选择,o1-preview 每周限制 30 条消息,o1-mini 每周限制 50 条消息。 o1 亮点一:或为 OpenAI 新模型“Orin”生成合成数据。据 The Information,o1 或为 OpenAI 新模型“Orin”生成合成数据。无独有偶,我们注意到,OpenAI 创始团队出走创办的 Anthropic——OpenAI 的有力竞争对手,2024 年 6 月发布了大模型 Claude 3.5 Sonnet,该模型使用了合成数据,在多个测试中的表现优于 GPT4o。我们发现,在人类生成的数据或将耗尽之际,合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点,尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题,但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。 o1 亮点二:“合成数据+强化学习”,o1 或确认大模型进化新范式。市场认为,Scaling Law(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现,根据 OpenAI 工程师 Jason Wei,o1 使用了强化学习(RL)做思维链(Chain of Thought)来训练模型;思维链可以使模型在推理阶段实现能力增强,即 Scaling Law 可以不止出现在训练阶段,也出现在推理阶段。这里我们所说的强化学习(RL),指模型 A 生成推理结果后,由模型 B 给推理结果打分,帮助模型 A 不断调整参数、迭代、进化,分成 RLAIF(基于 AI 反馈的强化学习)和 RLHF(基于人类反馈的强化学习)多种,后者曾因被用于 ChatGPT 而名声大噪。我们认为,o1 系列的惊艳面世,或许不仅是确认了合成数据的重要性,还意味着大模型对强化学习的倚重,而在强化学习中,我们注意到,RLAIF(基于 AI 反馈的强化学习)逐渐成为 Meta LLama3、英伟达 Nemotron-4 340B、微软Orca-2 等热门大模型的选择,相较于 RLHF(基于人类反馈的强化学习),需要的人类标注较少,适合代码、数学等有客观评价标准的领域。我们推测,RLAIF 或许也是 o1 在代码、数学等问题上表现更好的原因。 投资建议:根据 OpenAI,o1 模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好,这表明 o1“推理时,在响应用户前,思考更多”有助于让 o1 表现更好,这正是推理 Scaling Law。我们认为,这有助于打破投资界过往的担忧,即“推理需要的算力比训练少,当大模型的进化转向推理,算力板块承压”;相反,推理 Scaling Law 仍将利好算力板块。建议关注:1)光模块产业链:中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等;2)液冷服务商:英维克;3)PCB 服务商:沪电股份等;4)AIDC:润泽科技等。 风险提示:大模型算法进展不及预期,大模型应用落地不及预期,全球宏观经济下行风险。 增持(维持) 行业走势 作者 分析师 宋嘉吉 执业证书编号:S0680519010002 邮箱:songjiaji@gszq.com 分析师 孙爽 执业证书编号:S0680521050001 邮箱:sunshuang@gszq.com 相关研究 1、《通信:o1 新模型对算力需求几何》 2024-09-16 2、《通信:26 年 AI 算力应用初窥》 2024-09-08 3、《通信:市场对 AI 算力担心什么?》 2024-09-01 -30%-22%-14%-6%2%10%2023-092024-012024-052024-09通信沪深3002024 09 19年 月 日 gszqgszqdadatemarkrk P.2 请仔细阅读本报告末页声明 内容目录 1 Open AI 新模型开出高额订阅费,多领域实现新飞跃 ............................................................................... 3 1.1 OpenAI 发布新模型 o1 系列,逻辑推理能力卓越 ............................................................................ 3 1.2 o1 或为 Open AI 新模型猎户座(Orion)生成合成数据 ................................................................... 4 2 合成数据面面观:定义、优点、不足与解决方案 ..................................................................................... 6 2.1 合成数据的定义 ......................................................................................................................... 6 2.2 合成数据的优点 ......................................................................................................................... 6 2.2.1 相较于人工生成的数据,性价比或更高 ............................................................................... 6 2.2.2 更完整、全面 ................................................................................................................... 6 2.2.3 隐私性更好 ..................................................................

立即下载
信息科技
2024-09-24
国盛证券
18页
2.13M
收藏
分享

[国盛证券]:通信行业深度:“合成数据%2b强化学习”-大模型进化的新范式,点击即可下载。报告格式为PDF,大小2.13M,页数18页,欢迎下载。

本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共18页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
通信行业(申万)个股周涨幅前十名(%) 图表5: 通信行业(申万)个股周涨幅后十名(%)
信息科技
2024-09-24
来源:通信行业:OpenAI发布o1新模型,光博会新技术精彩纷呈
查看原文
申万一级行业周涨跌幅(%)
信息科技
2024-09-24
来源:通信行业:OpenAI发布o1新模型,光博会新技术精彩纷呈
查看原文
历史推荐组合、沪深 300 及通信(申万)指数当周收益率对比(%)
信息科技
2024-09-24
来源:通信行业:OpenAI发布o1新模型,光博会新技术精彩纷呈
查看原文
上期推荐投资组合涨跌幅(%)
信息科技
2024-09-24
来源:通信行业:OpenAI发布o1新模型,光博会新技术精彩纷呈
查看原文
美股硬件公司周涨跌幅前 20 名公司(20240916--20240920)
信息科技
2024-09-23
来源:电子行业前沿科技跟踪第1期:Open AI发布o1模型,强化学习打开LLM推理上限
查看原文
主要指数周涨跌幅(20240918--20240920)
信息科技
2024-09-23
来源:电子行业前沿科技跟踪第1期:Open AI发布o1模型,强化学习打开LLM推理上限
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起