计算机行业ChatGPT系列报告-百度、三六零与科大讯飞:谁是ChatGPT“国家队”?
本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明 证券研究报告 1 ChatGPT 系列报告 百度、三六零与科大讯飞:谁是 ChatGPT“国家队”? 2023 年 02 月 13 日 [Table_Author] 分析师:吕伟 执业证号:S0100521110003 电话:021-80508288 邮箱:lvwei_yj@mszq.com ➢ 从开源模型 GPT-2 迈向通用模型的 ChatGPT。自 2017 年 6 月,Google发布论文《Attentionisallyouneed》,首次提出 Transformer 模型,成为 GPT发展的基础;2018 年-2020 年,OpenAI 基于 Transformer 模型发布多篇论文,并陆续提出 GPT-1、GPT-2、GPT-3 的三类语言模型,并在 2022 年 2 月发布论文 《 Training language models to follow instructions with human feedback》(使用人类反馈指令流来训练语言模型),公布 InstructionGPT 模型,随后在 2022 年 11 月 30 日,OpenAI 推出 ChatGPT 模型,并提供试用。仅仅不足 6 年时间,ChatGPT 走完从理论到现实的历程,其核心催化在于算法+数据+算力的共振。 图1:ChatGPT 的发展历程 资料来源:openAI 官网,民生证券研究院整理 模型的进步是算法+算力的加持下,通过海量参数带来从量变到质变的升华。GPT模型依托于 Transformer 解除了顺序关联和依赖性的前提,提出一个建设性的主张:先通过大量的无监督预训练(Unsupervisedpre-training),再通过少量有监督微调(Supervisedfine-tunning),来修正其理解能力。整个算法模型包含三个步骤:1.人类反馈强化学习(RLHF);2.收集参照参数并训练奖励模型;3.使用 PPO 算法进一步对 GPT 实现的内容进行强化学习加成,从人类偏好学习模型解决了强化学习对奖励机制保持一致的高度依赖。而复盘技术路径,算法模型在2017 年时已被提出,从 GPT-1 到 ChatGPT 依然遵循 Transformer 的框架。而真正带来升华的是在高性能算力加持下,通过优质数据的不断迭代演变而来。 推荐 维持评级 相关研究 1.计算机周报 20230212:ChatGPT 有望带来 5G 消息的业务重构-2023/02/12 2.计算机行业点评:计算机行业估值洼地:支付板块-2023/02/12 3.计算机行业事件点评:数字经济有望进入政策密集催化期-2023/02/07 4.计算机周报 20230205:预期差最大的主线:央企“搭台”,AI“唱戏”-2023/02/05 5.密码安全深度报告:密码:信创与数据安全皇冠上的“明珠”-2023/01/30 仅供内部参考,请勿外传行业点评/计算机 本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明 证券研究报告 2 ➢ 高质量的数据资源是推动 GPT 进化的重要抓手。从 GPT-1 的 1.17 亿参数到GPT-2 的 15 亿参数,再到 GPT-3 划时代的 1750 亿参数,OpenAI 依托筛选过的优质数据形成参数量的阶梯式上升,最终带来 GPT-3 乃至 ChatGPT 具备理解上下文、连贯性等诸多先进特征。 在提出 GPT-3 的论文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一万亿文字(参数)的数据库后,放弃直接使用海量数据训练模型,而是转向通过三种模式筛选优质数据进行训练,从而从万亿参数归纳出众人所熟知的1750 亿参数,其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。 图2:放弃使用万亿数据集的原因 资料来源:Tom B. Brown 等作者《LanguageModelsareFew-ShotLearners》,民生证券研究院 论文中所用的三种筛选数据模式如下: 1)根据与一系列高质量参考语料库的相似度比较,从而过滤出的爬虫数据; 2)通过对数据集内部和跨数据集的文档上执行重复数据的删除; 3)将已知的高质量参考语料库添加到训练组合中,以增强数据集的多样性。 图3:三种筛选数据模式 资料来源:Tom B. Brown 等作者《LanguageModelsareFew-ShotLearners》,民生证券研究院 根据 OpenAI 的设计,在筛选出的优质数据下,最终训练出的 GPT-3 成本极其高昂。即使在团队明确发现失误的前提下,依然无法承担二次训练的代价,其本质原因在于优质数据的来源是 OpenAI 通过大量前期的工作筛选而成。通过梳理,筛选后的数据主要分为:1)过滤后的爬虫数据、2)WebText2 的数据集、3)一号图书馆数据、4)二号图书馆数据、5)英文版的维基百科等五种。而将五类数据映射至国内,我们发现在互联网高歌猛进的建设中,我国天然具备五类数据的优质土壤。 仅供内部参考,请勿外传行业点评/计算机 本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明 证券研究报告 3 图4:筛选后的不同种类数据在训练中的情况 资料来源:Tom B. Brown 等作者《LanguageModelsareFew-ShotLearners》,民生证券研究院 ➢ 以百度、360 和科大讯飞为代表的通用模型中国队,同时具备模型+算力+数据的天然属性。在模型上,无论是 GPT-3、亦或是 ChatGPT,其底层的技术仍未跳出 2017 年 Transformer 模型的框架。1)三六零:根据 2 月 7 日,公司在互动平台上的回答,公司的搜索引擎团队及人工智能研究院从 2020 年开始一直在包括类 ChatGPT、文本生成图像等技术在内的 AIGC 技术上有持续性的研发及算力投入,目前公司的类 ChatGPT 技术的各项指标已实现强于 GPT-2 的水平,并在中文语境下实际效果强于 ChatGPT2;2)百度公众号宣布将在 3 月上线类 ChatGPT应用“文心一言”;3)在 NLP 所在的认知智能领域,科大讯飞主导承建了认知智能全国重点实验室(科技部首批 20 家标杆全国重点实验室之一),多年来始终保持关键核心技术处于世界前沿水平,并在去年获得 CommonsenseQA2.0、OpenBookQA 等 12 项认知智能领域权威评测的第一;4)浪潮信息发布的源 1.0,作为人工智能巨量模型,单体模型参数量达到 2457 亿,超越美国 OpenAI 组织研发的 GPT-3 模型,成为全球最大规模的中文语料 AI 巨量模型。 结合 OpenAI 以非盈利的模式下,仅仅在一年多便从 GPT-2 升级到 GPT-3,我们判断百度、三六零以及科大讯飞为代表中国队,在模型上的差距有望在一定时间内实现追平。 ➢ 在算力上,OpenAI 的算力依托于微软为其推出的超级计算机,根据微软表示,最新与 Ope
[民生证券]:计算机行业ChatGPT系列报告-百度、三六零与科大讯飞:谁是ChatGPT“国家队”?,点击即可下载。报告格式为PDF,大小1.24M,页数5页,欢迎下载。
