AI大模型系列报告二:OpenAI发布GPT-O1,模型能力持续提升
请务必阅读正文之后的免责声明及其项下所有内容2024年10月11日AI大模型系列报告二OpenAI发布GPT-O1,模型能力持续提升行业研究 · 行业专题 计算机 · 人工智能 投资评级:优于大市证券分析师:熊莉证券分析师:艾宪021-617610670755-22941051xiongli1@guosen.com.cnaixian@guosen.com.cnS0980519030002S0980524090001证券研究报告 | 请务必阅读正文之后的免责声明及其项下所有内容摘要Ø OpenAI发布GPT-O1,模型能力持续提升。1)思维链提升模型能力:GPT-O1在回复用户问题之前会生成一条较长的内部思维链,将复杂的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2)GPT-O1思考过程消耗时间,答案更加细化:新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间,GPT-O1在同样问题下,给出的结果更加详细;3)GPT-O1更适用于解决纵深问题:OpenAI o1-preview和o1-mini模型用于解决困难问题,主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务。Ø GPT-O1有望拉动ASIC芯片需求,适用于高价值场景。1)GPT-O1拉动推理算力增长,ASIC芯片或大有可为:一方面,思维链(CoT)需要多步推理进而大幅提升推理算力的需求,另一方面,ASIC芯片在推理领域具有明显优势,根据CSET数据,其效率和速度约为CPU的100-1000倍,相较于GPU和FPGA具备显著竞争力;2)GPT-O1适用于高价值场景:随着大模型推理能力提升,其在多领域表现出色,例如科研场景、营销内容生成、制定计划、代码生成等。3)市场空间测算:由于计算机语言相对规范,我们认为GPT-O1渗透率在编程领域有望率先提升;根据Evans Data CorporationData数据,22年全球有2690万软件开发者,根据CSDN发布的《2021-2022中国开发者调查报告》显示,大部分程序员平均每天会写200行左右的代码,假设每行代码10个单词,对应2000个单词,折合约2666个tokens,则假设终局下GPT-O1渗透率为75%,重复修改次数为10次/天,对应年度tokens消耗量为2690*75%*2666*300*10=1613596.5亿个tokens(假设每年工作300天),对应市场空间为96.82亿美金(此处简化,仅计算模型输出Tokens,60美元/百万tokens)。随着其他领域渗透率的提升,GPT-O1的市场空间将持续增长。Ø 投资建议:GPT-01使用思维链等方法,进一步提升了大模型的能力。一方面,由于思维链在推理阶段的使用,GPT-O1提升了推理算力的消耗,建议关注国产算力芯片公司,例如海光信息等;另一方面,思维链提升大模型的能力,给予国产大模型公司启示,国产大模型能力有望进一步提升,建议关注国产AI应用公司,例如金山办公等。Ø 风险提示:AI大模型迭代不及预期风险、AI应用落地不及预期风险、AI芯片迭代不及预期的风险。请务必阅读正文之后的免责声明及其项下所有内容OpenAI发布GPT-O1,模型能力持续提升01GPT-O1有望拉动Asic芯片需求,应用精度提升02投资建议与风险提示03目录请务必阅读正文之后的免责声明及其项下所有内容OpenAI发布GPT-O1,思维链提升模型能力Ø 24年9月12日,OpenAI发布GPT-O1。同GPT-4O相比,GPT-O1在数学、代码、科学问题(PhD级别)评分显著提升;从测试结果来看,Plus用户的普通回复同GPT-4O感觉差别不大,但对于纵深的代码问题,GPT-O1的解答更为准确。Ø 技术路线:思维链(CoT)提升模型推理能力。1)引入思维链(CoT):GPT-O1在回复用户问题之前会生成一条较长的内部思维链,将复杂的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2)通过强化学习训练思维链(CoT):OpenAI通过强化学习去训练思维链,其发现GPT-O1的表现会随强化学习(Train-time compute)和思考时间(Test-time Compute)的增加而提升,其中奖励模型的优化是关键。图:GPT-O1在数学、代码、科学问题(PhD级别)评分显著高于GPT-4o资料来源:OpenAI官网,国信证券经济研究所整理图:GPT-O1的表现随强化学习和思考时间的增加而提升资料来源:OpenAI官网,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容通过强化学习(RL)和思维链(CoT)提升推理能力Ø OpenAI通过强化学习加强思维链(CoT):基于标准的强化学习框架,智能体在环境中采取一个动作,然后更新环境状态,并会得到一个奖励(Reward,局部信号,可以为正向信号,也可以为负向信号);智能体唯一目标是长期期望奖励最大化,对“采取动作-查看奖励-观察新状态-采取另一动作”流程进行循环,在奖励函数等参数设置正确的情况下,智能体可以在每一步做出可靠的优秀决策。Ø GPT-O1在推理阶段同传统LLMs不同:对于绝大多数LLMs,其预训练(Pre-training)、后训练(Post-training)花费较长时间,但在推理(Inference)环节,模型仅用于做出预测或生成文本,过程较短;相比之下,GPT-O1在推理阶段需要更多的实时计算资源和时间进行更复杂的推理任务,这个阶段较长且关键。图:强化学习标准框架资料来源:Alexander Zai-《深度强化学习实战》-人民邮电出版社(2023年)-P30,国信证券经济研究所整理图:GPT-O1资料来源:JimFan(From X),国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容GPT-O1思考过程消耗时间,答案更加细化Ø GPT-O1思考过程消耗时间,答案更加细化:强化学习增强了GPT-O1中的思维链,新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间;GPT-O1在同样问题下,给出的结果更加详细,此外,在提示词不同的情况下,生成的思维链也会略有区别。图:GPT-O1思考过程消耗时间,答案更加细化资料来源:GPT-O1,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容GPT-4O与O1适用于不同下游需求Ø GPT-O1与GPT-4O模型适用的下游场景不同,新模型更适合解决复杂问题。Ø OpenAI o1-preview和o1-mini模型用于解决困难问题,主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务,使用场景包括策略制定、课程辅导、编码练习和评论等。目前OpenAI o1-preview和o1-mini模型无法访问网页、语音、文件上传、视觉等高级功能。Ø GPT-4o在自然语言任务中表现更佳,且接受文本、音频、图像和视频的任意组合作为输入。因此对于大多数使用需求,尤其是那些涉及使用工具和视觉的用例,GPT-4o仍是最优选择。 Ø 成本方面,o1-preview的API调用输入价格为GPT
[国信证券]:AI大模型系列报告二:OpenAI发布GPT-O1,模型能力持续提升,点击即可下载。报告格式为PDF,大小2.03M,页数17页,欢迎下载。
