计算机行业GPT产业复盘(2019):大容量路线

免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 计算机 GPT 产业复盘(2019):大容量路线 华泰研究 计算机 增持 (维持) 研究员 谢春生 SAC No. S0570519080006 SFC No. BQZ938 xiechunsheng@htsc.com +(86) 21 2987 2036 联系人 袁泽世,PhD SAC No. S0570122080053 yuanzeshi@htsc.com +(86) 21 2897 2228 行业走势图 资料来源:Wind,华泰研究 2023 年 2 月 14 日│中国内地 专题研究 溯源 GPT 发展:2019 年“三足鼎立”,GPT 明确大容量路线 回顾基于 Transformer 的预训练大语言模型的发展,可以看到 2019 年是预训练大语言模型的技术架构演进之年。以 GPT、BERT、T5 为代表的三类典型预训练语言模型,分别采用了只有解码器、只有编码器、同时拥有解码器-编码器的技术架构,分别搭建了自回归语言模型、自编码语言模型以及序列到序列模型。2019 年 GPT-2 论文的正式发表,有力验证了“更多训练数据+更大网络参数,也可以有效提升预训练模型的泛化能力”, 自此开启了 GPT 模型向更大容量扩展的技术发展路径。因此,2019 年也可以称得上是 GPT 系列模型的技术路线明确之年,是 GPT 模型演化的重要时间节点。 GPT-2:具备多任务学习、大模型容量、无微调建模三大特点 GPT-2 模型具有多任务学习、大模型容量、无微调建模三大特点。1)多任务学习:GPT-2 在预训练阶段采用多任务学习方式,不仅有效提升了学习效率,而且通过扩大训练数据、隐式数据增强有效强化了模型的泛化能力;2)大模型容量:GPT-2 最大层数达 48 层,最大词向量长度达 1,600,由于模型层数越多,完成的非线性映射就越复杂,词向量长度越长,拟合的情况越复杂,因此 GPT-2 模型具有较强的学习能力;3)无微调建模:GPT-2 聚焦模型的泛化能力,旨在通过多任务学习训练一个模型,训练好的这一个模型可以解决多类任务,因此取消了 fine-tune 层,不再针对不同任务进行微调。 GPT-2 VS GPT-1:从“专才”到“通才”,大容量路线确定 较 GPT-1 而言,GPT-2 的变化主要体现在四个方面:取消 fine-tune 训练、增加数据集(GPT-2 使用 WebText 数据集,累计大小约 40GB)、增加网络参数(最大模型参数量 15 亿)、调整 Transformer 结构。GPT-2 取消 fine-tune,采用大规模数据集+大容量模型的技术方案,成功训练了 GPT 模型的“通才”能力,“一个模型解决多类任务”构想的有效性得到了重要的实验验证。同时 GPT-2 证明随着模型的参数变多,模型的表现呈现对数线性上升,模型的泛化能力仍具有上升空间。总结来看,GPT-2 模型的成功演绎是后续 GPT模型向更大容量、更大训练集演进的重要基础。 GPT VS BERT/T5:自回归语言模型更具生成式优势 GPT-2、BERT、T5 均基于 Transformer 模型,但在模块组成、模型参数、预训练方式上有所不同。1)GPT-2:Transformer 只有 Decoder(解码器),为自回归模型(Auto-regressive models);2)BERT:Transformer 只有Encoder(编码器),为自编码模型(Auto-encoding models);3)T5:Transformer 同时包含 Encoder、Decoder 两部分,为序列到序列模型(Sequence-to-sequence model)。对比来看,GPT 的自回归预训练在文本生成、对话问答等从左向右的生成任务上具备天然优势。 风险提示:宏观经济波动;下游需求不及预期;本报告内容均基于公开客观数据整理,不代表研究覆盖和推荐。 (30)(21)(12)(3)6Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300仅供内部参考,请勿外传 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 计算机 GPT 发展之 2019:“三足鼎立”,GPT 明确大容量路线 2019 年“三足鼎立”,GPT-2 论文成功开启 GPT 大容量演进路线。回顾基于 Transformer的预训练大语言模型的发展,可以看到 2019 年是预训练大语言模型的技术架构演进之年。以 GPT、BERT、T5 为代表的三类典型预训练语言模型,分别采用了只有解码器、只有编码器、同时拥有解码器-编码器的技术架构。GPT-2 论文对“更多训练数据+更大网络参数可以提升模型的泛化能力”进行了有力验证,由此开启了 GPT 系列模型的大容量演进路线。 本报告针对 GPT-2 的论文《Language Models are Unsupervised Multitask Learners》的关键信息进行了详细解读;同时通过对比 GPT-2 与 GPT-1,得到了 GPT 系列模型的演进思路;通过对比 GPT-2、BERT、T5 三类技术架构的模型,得到了 GPT 系列模型在生成式任务上具备天然优势的原因。 图表1: 2017-2022 年基于 Transformer 的预训练模型梳理及 2019 年三类典型模型 注:红框内浅粉色高亮的三种预训练语言模型是 2019 年三类典型模型 资料来源:OpenAI 官网、Google 官网、CSDN、华泰研究 仅供内部参考,请勿外传 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 3 计算机 GPT-2:大模型新纪元开启,大容量技术路线确定 理解 GPT 系列论文是我们理解 GPT 模型技术路径演绎的重要方法。GPT-2 论文的核心重点在于验证是否可以通过更多的训练数据+更大的网络参数让模型具备零次学习(Zero-shot Learning)能力;即通过更广泛学习+更强的学习能力,加速 GPT 从“专才”走向“通才”。实验结果证明,当训练数据足够多、模型参数足够大时,就可以通过训练一个模型,处理多类任务;自此确立了 GPT 模型向更大容量演进的发展目标。 图表2: GPT 模型演进路径 资料来源:OpenAI 官网、华泰研究 GPT-2:开启“单模型解决多任务”新纪元,大容量技术路线确定 《Language Models are Unsupervised Multitask Learners》论文发表,GPT-2 开启“一个模型处理多类任务”的新时代。GPT(Generative Pre-trained Transformer)系列预训练语言模型,早在 2018 年在论文《Improving Language Understanding by Generative Pre-Training》中被提出,初代 GPT-1 模型验证了“通过无监督预训练,针对特定任务微调,处理有监督任务”模型的

立即下载
电子设备
2023-02-15
华泰证券
13页
2.47M
收藏
分享

[华泰证券]:计算机行业GPT产业复盘(2019):大容量路线,点击即可下载。报告格式为PDF,大小2.47M,页数13页,欢迎下载。

本报告共13页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共13页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
百度文心百中产品功能
电子设备
2023-02-15
来源:计算机行业深度分析:ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战
查看原文
华为盘古大模型
电子设备
2023-02-15
来源:计算机行业深度分析:ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战
查看原文
阿里达摩院智能计算实验室M6大模型开发进程
电子设备
2023-02-15
来源:计算机行业深度分析:ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战
查看原文
全球2020-2021年AI大模型一览
电子设备
2023-02-15
来源:计算机行业深度分析:ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战
查看原文
嵌入了GPT-3.5的Teams线上会议平台会议纪
电子设备
2023-02-15
来源:计算机行业深度分析:ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战
查看原文
2019Q1-2022Q3阿里巴巴、腾讯和百度资本开支及增速图
电子设备
2023-02-15
来源:计算机行业深度分析:ChatGPT通用化效果突破、前景广阔,国内AI产业链追赶仍有较大挑战
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起