人工智能行业:华为盘古大模型相关梳理
华为盘古大模型相关梳理证券研究报告行业动态报告发布日期:2023年3月26日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博yufangbo@csc.com.cnSAC编号:S1440522030001分析师:阎贵成yanguicheng@csc.com.cnSAC编号:S1440518040002SFC 中央编号:BNS315分析师:金戈jinge@csc.com.cnSAC编号:S1440517110001SFC 中央编号:BPD352 核心观点:今年以来,以GPT为代表的预训练大模型引发技术和商业的热潮。展望国内大模型,我们认为华为在该领域积累深厚,有望快速实现商业化。复盘华为盘古大模型发展,其基础大模型、行业大模型、细分场景模型已经在不同领域率先取得成功,并带动产业链相关公司。我们认为,华为是国内在芯片算力、模型算法、应用场景等多个环节具有完整布局的头部公司,具备优秀的大模型研发与应用能力,推荐重点关注其盘古大模型的研发、应用进展及相关产业链的投资机遇。1.华为云团队于2020 年立项AI 大模型,并且于2021 年4 月发布“盘古大模型”。自“盘古大模型”发布以来,已经发展出L0、L1、L2三大阶段的成熟体系持续进化。所谓L0是指NLP大模型、CV大模型等五大水平领域的基础大模型;而L1指行业大模型,比如气象、矿山、电力等行;L2指面向各行业中细分场景的模型,比如电力行业的无人机巡检。2.基础大模型研发与迭代能力强劲,持续创新推动大模型发展。NLP大模型方面,以鹏城实验室为首的联合团队在模型设计、语料库训练、分布式训练等方面进行创新,推出全球首个全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古,并探索迭代语言大模型在具体下游场景中的应用优化,可以基于更小规模的模型满足具体场景的应用需求。而在CV和多模态大模型方面,华为的相关研究人员也在模型结构设计、数据集丰富等层面持续创新,是引领引领大模型不断发展的重要中国力量。3.多行业、多场景成功验证模型能力,商业化落地效果强于GPT-3。目前盘古预训练大模型能力已经在包括能源、零售、金融、工业等领域得到验证。例如,在电力领域,可做到一个模型适配上百种缺陷,一个模型就可以替代厂商原先的 20 多个小模型,极大减少了模型维护成本,平均精度提升 18.4%,模型开发成本降低 90%。同时盘古NLP大模型通过迁移学习实现少样本学习的目标,将 P-tuning等最新技术融入到盘古的微调框架中,并通过庞大的行业知识库进行训练,使其更适合在复杂商用场景下的应用能力强于GPT-3。4.盘古NLP大模型带动产业链公司。华为大模型在昇腾硬件、云端AI服务、矿山大模型等各方面积极拓展合作伙伴,推荐重点关注其盘古大模型的研发、应用进展及相关产业链的投资机遇。核心观点 nMoNoOsQyQoOmQoMnNqPyQbRcM6MmOmMtRpMlOpPmPfQmOqP6MpOnMxNtPoNwMtQoM目录一、盘古大模型二、相关产业链标的 1.1 盘古大模型:深耕行业应用资料来源: 华为云 ,中信建投•盘古大模型:L0->L1->L2的研发体系华为云团队于2020 年立项AI 大模型,并且于2021 年4 月发布“盘古大模型”。自“盘古大模型”发布以来,已经发展出L0、L1、L2三大阶段的成熟体系持续进化。L0是指NLP大模型、CV大模型、多模态大模型、科学计算大模型等基础大模型;2022年11月推出了L1行业大模型,比如气象、矿山、电力等行业大模型;L2指面向各行业中细分场景的模型,比如电力行业的无人机巡检、金融违约风险识别模型等。图:盘古系列大模型 1.2 L0:盘古NLP大模型:中文理解和下游应用能力优异•在2021年4月的HDC.Cloud大会上,盘古NLP 大模型发布,其由华为云和循环智能联合开发的,由鹏城实验室提供算力支持。•盘古NLP大模型是业内首个千亿参数的中文大模型,性能优异:在预训练阶段,NLP大模型学习超过40TB行业文本数据和400万小时的行业语音数据,具有1100亿参数,具备强大的通用中文知识储备。同时通过行业数据的小样本调优,带来具体场景中的应用性能提升。•中文理解能力出色:在2021年4月发布后,在当时的权威中文语言理解评测基准CLUE榜单上,盘古NLP大模型在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,总榜得分比第二名高出一个百分点。•可以依靠少量下游数据进行微调:盘古NLP大模型通过迁移学习实现少样本学习的目标,将 P-tuning、priming 等最新技术融入到盘古的微调框架中,进一步提升微调效果,通过庞大的行业知识库进行训练,使其更适合在复杂商用场景下使用。在当时,盘古的微调对模型提升的能力甚至超过了GPT-3。图:盘古NLP大模型的表现资料来源:机器之心,华为云,中信建投总得分榜排名第一阅读理解榜榜排名第一分类任务榜排名第一图:盘古NLP模型能够与行业知识库对接图:不同模型达到目标值所需平均样本数270100904510050100150200250300CNNBERTGPT-3 RoBERTa盘古 1.3 L0:鹏程·盘古NLP大模型:全球首个开源的2000亿参数的中文大模型资料来源: 《鹏程·盘古:大规模自回归中文预训练语言模型及应用》,中信建投•2021年5月的华为生态大会2021上,超大模型「鹏程. 盘古」重磅亮相,由鹏城实验室联合相关技术团队开发。•其基于Transformer的Decoder架构设计,最大版本参数量达2000亿:以鹏城实验室为首的联合团队在基于昇腾910芯片的E级智能算力平台 (鹏城云脑II) 上训练了全球首个全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古。其基于Transformer的Decoder架构改进而来,分为26亿、131亿、2070亿三个版本。•其收集了不同来源的海量数据,并通过数据预处理方式提升数据质量,以满足大模型的数据需求:收集了包含开放数据集、ommon Crawl原始网页数据、百科数据、新闻数据、电子书籍等近80 TB的原始数据。先通过基于规则的数据清洗、基于模型的过滤、数据去重等数据预处理方式,再通过人工和模型分别对数据质量进行评估,并且通过不断迭代前两个步骤来提升数据质量,最终形成了1.1TB的高质量训练数据集图:鹏程·盘古模型架构及模型参数量来自15个开放数据集,如DuReader、BaiduQA、CAIL2018、Sogou-CA等百度百科、搜狗百科等百科类数据不同主题的电子书籍,如小说、历史、诗歌、古文等2018年1月-2020年12月的Common Crawl网页数据1992-2011年的新闻数据27.9GB22.0GB299.0GB714.9GB35.5GB图:鹏程·盘古模型训练数据组成及数据处理方式
[中信建投]:人工智能行业:华为盘古大模型相关梳理,点击即可下载。报告格式为PDF,大小2.3M,页数22页,欢迎下载。
