计算机行业GPT产业复盘(20-21):走向应用
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 计算机 GPT 产业复盘(20-21):走向应用 华泰研究 计算机 增持 (维持) 研究员 谢春生 SAC No. S0570519080006 SFC No. BQZ938 xiechunsheng@htsc.com +(86) 21 2987 2036 联系人 袁泽世,PhD SAC No. S0570122080053 yuanzeshi@htsc.com +(86) 21 2897 2228 行业走势图 资料来源:Wind,华泰研究 2023 年 2 月 19 日│中国内地 专题研究 溯源 GPT 发展:20-21 年参数量继续加大,应用于代码生成领域 2019 年问世的 GPT-2,证明了大训练参数量和数据集能获得很好的训练结果,明确了 GPT 发展的大容量路线,并开始尝试泛化能力更强的 zero-shot学习(零次学习)。在此基础上,2020 年 5 月,OpenAI 发表论文《Language Models are Few-Shot Learners》推出 GPT-3,将模型参数量提高到 1750亿,达到 GPT 系列模型的最大规模,训练数据集大小超 570GB。此外,GPT-3将 GPT-2 采用的 zero-shot 更换为 few-shot,进一步提高了模型的训练效果。2021 年,基于 GPT-3,OpenAI 推出通用代码生成模型 Codex。竞争对手微软和谷歌也于 2020 年分别提出了 T-NLG 和 ELECTRA 模型。 GPT 发展之 2020:模型参数提升到 1750 亿 GPT-3 模型延续了 GPT-2 模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,其特点在于:1)与 GPT2 采用几乎同样的架构,模型参数由 GPT-2 的 15 亿增加到 1750 亿,提升超 100 倍。2)与GPT-2 一样舍弃了针对不同任务进行的微调,转而用 few-shot 来实现下游任务,兼顾了训练效果与成本。3)GPT-3 训练数据集为多种数据集的混合,包括Common Crawl以及质量更高的WebText2、Wikipedia,大小超570GB。 GPT 发展之 2021:在代码生成领域的应用—Codex Codex 是在 GPT-3 上基于 GitHub 公开代码进行微调的代码生成模型。OpenAI 从 Github 上搜集了 5400 万个公共软件库代码,集合而成大小159GB 的代码训练数据集。Codex 即是参数量 12B 的 GPT-3 基于该数据集微调得到的模型。在进行模型评估时,OpenAI 构造了 HumanEval 数据集,包含 164 原创的、手工设计的编程问题。与类似的代码生成模型相比,120亿参数的 Codex 准确率最高可达 72.31%,性能优异。 T-NLG 追求大规模,ELECTRA 注重训练效率 微软 T-NLG 问世时是规模最大的自然语言生成模型,训练参数达 170 亿,能够完成开放式文本任务、直接生成问题答案、输出文档摘要等任务,并在许多 NLP 任务上均优于当时的 SOTA 技术。其演化版本 MT-NLG 参数达5300 亿,再次刷新 NLP 模型规模记录。谷歌 ELECTRA 模型基于替换 token检测任务训练得到,更注重提高预训练效率而非参数规模。参数规模最小的14M ELECTRA-Small 训练结果能够超过模型规模更大的 GPT-1 模型。 模型对比:GPT-2 vs T-NLG/ELECTRA (M)T-NLG 和 GPT 相比,最大特点在于模型参数量巨大,其中的逻辑在于微软和合作方 NVIDIA 分别在软件和硬件上更具优势,有利于发展大规模模型。ELECTRA 与 GPT-3 的区别主要在架构和训练策略上。1)架构上:GPT-3采用的是 Transformer 的解码器架构,ELECTRA 是 Transformer 编码器架构。2)策略上:ELECTRA 坚持了小型模型的道路,通过改善预训练方法来提高效果,不追求大规模的训练参数,同样获得了性能优异的模型。 风险提示:宏观经济波动,下游需求不及预期。本报告内容均基于客观信息整理,不构成投资建议。 (34)(25)(16)(6)3Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300仅供内部参考,请勿外传 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 计算机 正文目录 GPT 发展之 20-21:参数量继续加大,应用于代码生成领域 ....................................................................................... 3 GPT 发展之 2020:模型参数提升到 1750 亿 ............................................................................................................... 4 GPT-3:模型参数达 1750 亿,few-shot 进一步提高性能 ..................................................................................... 4 模型特点:大参数量+大训练集+few-shot ............................................................................................................. 4 特点一:架构基本不变,参数量大大增加 ..................................................................................................... 4 特点二:采用 few-shot 学习完成下游任务 .................................................................................................... 6 特点三:预训练数据集达 570GB 以上 .......................................................................................................... 7 论文结论:Few-shot 在多种 NLP 数据集上实现了较好性能 ................................................................................ 8 GPT 发展之 2021:代码生成领域的应用—Codex
[华泰证券]:计算机行业GPT产业复盘(20-21):走向应用,点击即可下载。报告格式为PDF,大小3.28M,页数21页,欢迎下载。



