计算机行业GPT产业复盘(2022):推出ChatGPT
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 计算机 GPT产业复盘(2022):推出 ChatGPT 华泰研究 计算机 增持 (维持) 研究员 谢春生 SAC No. S0570519080006 SFC No. BQZ938 xiechunsheng@htsc.com +(86) 21 2987 2036 联系人 袁泽世,PhD SAC No. S0570122080053 yuanzeshi@htsc.com +(86) 21 2897 2228 行业走势图 资料来源:Wind,华泰研究 2023 年 2 月 19 日│中国内地 专题研究 溯源 GPT 发展:2022 年 ChatGPT 面世,LLM 里程碑式胜利 梳理 GPT 系列模型的演进过程,可以看到 2022 年是 GPT 系列模型围绕GPT-3、GPT-3.5 加速版本迭代的重要节点,2022 年 11 月,ChatGPT 成功面世,成为历史上用户增长最快的消费者应用。与 Google、FaceBook等公司不同,OpenAI 从初代模型 GPT-1 开始,始终贯彻只有解码器(Decoder-only)的技术路径,2018-2022 年 GPT 系列模型几乎按照每年一代的速度,不断迭代升级。我们认为,2022 年 ChatGPT 的成功,是 OpenAI公司 GPT 系列模型的阶段性胜利,也是大语言模型 LLM 的里程碑式胜利,后续围绕 LLM 的技术升级、应用拓展有望加速开启,AI 产业发展或将提速。 ChatGPT:引入人类反馈,模型训练 SFT、RM、PPO 三步走 ChatGPT、InstructGPT 分别是基于 GPT-3.5、GPT-3 微调得到的新版本模型,其核心目标是实现模型输出与人类预期的需求对齐(alignment),人类反馈强化学习 RLHF 成为模型需求对齐的重要技术支持。ChatGPT、InstructGPT 的模型训练主要包括三步:1)有监督微调 SFT:通过指示学习对模型进行有监督微调;2)奖励模型 RM 训练:借助人工标注员对模型输出进行排序,反馈训练得到奖励模型,此步是人类反馈的重要体现;3)近段策略优化 PPO 强化学习:通过监督学习策略生成 PPO 模型,优化、迭代原有模型参数。总结来看,RLHF 让模型输出更加符合用户预期。 ChatGPT VS InstructGPT:核心是基础大模型的不同 对比 ChatGPT 与 InstructGPT 的训练方法,可以发现,两者的训练方法基本一致,核心区别在于 InstructGPT、ChatGPT 分别基于 GPT-3、GPT-3.5进行模型微调。与 GPT-3 相比,GPT-3.5 增加了代码训练与指示微调:1)代码训练(Code-training):让 GPT-3.5 模型具备更好的代码生成与代码理解能力,同时间接拥有了复杂推理能力;2)指示微调(Instruction-tuning):让 GPT-3.5 模型具备更好的泛化能力,同时模型的生成结果更加符合人类的预期。作为基于 GPT-3.5 的模型微调产物,ChatGPT 具备更好的问答能力,更加遵循人类的价值观。 OpenAI VS Google:OpenAI 贯彻 Decoder-only 路径,技术集大成者 通过梳理 Google 与 OpenAI 在 LLM 领域的布局,可以看到,OpenAI 具备两大突出特点:1)贯彻 Decoder-only 技术路线:从 GPT-1 到 ChatGPT,OpenAI 的 LLM 均采用 Decoder-only 架构,单一架构的持续深耕与模型参数的不断扩大,让 OpenAI 的 GPT 系列模型具备强大的学习能力与文本生成能力;2)技术集大成者:ChatGPT 的发展不仅得益于 GPT 模型参数、训练数据的持续优化,也得益于各类 LLM 新技术的融会贯通,OpenAI 博采众长,加速 Instruction-tuning、RLHF、思维链等新技术在 GPT 系列模型中的深度应用,ChatGPT 是现有技术的集大成者。 风险提示:宏观经济波动;下游需求不及预期;本报告内容均基于客观信息整理,不构成投资建议。 (34)(25)(16)(6)3Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 计算机 正文目录 GPT 发展之 2022: ChatGPT 成功面世,LLM 里程碑式胜利 ................................................................................... 3 ChatGPT / InstructGPT:增加人类反馈强化学习(RLHF) ..................................................................................... 4 优化目标:从提示学习到指示学习,聚焦需求对齐(alignment) ....................................................................... 4 训练过程:“三步走”实现人工反馈强化学习 ....................................................................................................... 5 步骤一:有监督微调(SFT)训练 ................................................................................................................ 6 步骤二:奖励模型(Reward Model,RM)训练 .......................................................................................... 8 步骤三:近端策略优化(PPO)强化学习 ..................................................................................................... 9 论文结论:RLHF 是 GPT 需求对齐的重要支撑 .................................................................................................. 10 ChatGPT VS InstructGPT:核心是基础大模型的不同 ....................................
[华泰证券]:计算机行业GPT产业复盘(2022):推出ChatGPT,点击即可下载。报告格式为PDF,大小2.36M,页数19页,欢迎下载。
