计算机行业点评报告:数据是AI的胜负手
证券研究报告·行业点评报告·计算机 东吴证券研究所 1 / 7 请务必阅读正文之后的免责声明部分 计算机行业点评报告 数据是 AI 的胜负手 2023 年 04 月 16 日 证券分析师 王紫敬 执业证书:S0600521080005 021-60199781 wangzj@dwzq.com.cn 研究助理 张文佳 执业证书:S0600122080015 zhangwenjia@dwzq.com.cn 行业走势 相关研究 《AI 偏向科普性报告:围绕算法、算力、数据和应用》 2023-04-06 《华为盘古大模型产业链梳理》 2023-03-27 增持(维持) [Table_Tag] [Table_Summary] 投资要点 ◼ GPT 产生的重要能力主要来源于海量数据为基础的大模型训练。GPT-3 产生了三个重要能力:语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练:在有 3000 亿单词的语料上预训练拥有 1750 亿参数的模型。海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了 AI 研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT 相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。 ◼ 数据是 AI 的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是 AI 发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为 AI 发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 ◼ 数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 ◼ 投资建议与相关标的:公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节:1)数据运营:我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施:有望成为最先放量兑现的环节。重点推荐深桑达 A,易华录,云赛智联,建议关注中国电信。3)数据安全:我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 ◼ 风险提示:政策推进不及预期;行业竞争加剧。 -16%-10%-4%2%8%14%20%26%32%38%2022/4/182022/8/162022/12/142023/4/13计算机沪深300 请务必阅读正文之后的免责声明部分 东吴证券研究所 行业点评报告 2 / 7 1. 数据是 AI 实现强大能力的基础 AI 此前发展的困境之一在于只能用特定数据训练特定功能 AI,没有泛化能力。在GPT3.5 出现之前,人们对通用人工智能的发展非常悲观,只能通过特定的数据来训练特定功能的 AI,如果要拓展其他功能,需要再通过特定数据进行训练,训练好的模型不互通,没有全面的泛化能力。 GPT 产生的重要能力主要来源于海量数据为基础的大模型训练。根据符尧(2022)的归纳,GPT-3 产生了三个重要能力:语言生成(根据提示词补全句子)、上下文学习(按照给定任务示例为新的测试用例生成解决方案)、世界知识(包括事实性知识和尝试),这三个重要能力都源于基于海量数据的大模型预训练:在有 3000 亿单词的语料上预训练拥有 1750 亿参数的模型(训练语料的 60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于 Books + 3%来自于 Wikipedia)。 图1:GPT-3 到 GPT-3.5 出现的能力 数据来源:《拆解追溯 GPT-3.5 各项能力的起源》(符尧,2022),东吴证券研究所 海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了 AI 研究范式的转变。在思维链(Chain-of-Thought)提示下,OpenAI 的 GPT 和谷歌的 PaLM 请务必阅读正文之后的免责声明部分 东吴证券研究所 行业点评报告 3 / 7 大模型解题能力准确率都实现了大幅提升。这种突现能力是在模型大小大于 100B 时才产生的,目前只存在于大模型中。思维链(具备推理步骤)让模型具备了复杂推理能力,能够去解决鸡兔同笼等复杂的小学甚至中学数学题,协助写代码,并且在知识推理层面,不需要通过外部语料库/知识图谱检索,而可以仅仅依赖模型的内部知识,不需要精调。只有在训练数据量足够大时,量变才能引起质变。GPT 相比于此前模型所具备的“泛化能力”,或者说具备“常识”的能力,就是以海量数据为基础产生的。 图2:某些能力可能不存在于小模型中,需要在大模型中获得 数据来源:《深入理解语言模型的突现能力》(符尧,2022),东吴证券研究所 图3:对数线性曲线和相变曲线 数据来源:《深入理解语言模型的突现能力》(符尧,2022),东吴证券研究所 数据是 AI 的胜负手。算法、算力和数据是 AI 发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为 AI 发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 2. 发展自己的大模型,高质量数据尤其重要 请务必阅读正文之后的免责声明部分 东吴证券研究所 行业点评报告 4 / 7 语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。语言中所包含的价值观必然和训练它的人对齐,虽然模型本身不具备价值观取向,但是训练的语料库所包含的价值观将影响模型的输出结果,例如请 ChatGPT 写诗表扬特朗普和拜登,得到的回答截然不同。在目前的 OpenAI 语料库中,中文语料只占 5%,未来如果想在使用过程中符合中国特有价值取向,不被海外强势文化压缩生存空间,中国就必须发展自己的大模型。 图4:请 ChatGPT 写诗表扬特朗普和拜登得到的不同回答 数据来源:蔡子博士说美国,东吴证券研究所 发展自己的大模型需要以国内数据集为重要支撑,国内缺乏可训练的高质量数据。中文互联网环境下,搜索、视频等数据质量普遍低于海外,很多高价值数据都是公共数据和商业数据,尚未开放,没有成熟的可训练的数据集,未来将会对国内大模型发展产生压力。 高质量的行业私有数据价值很大。数据存在飞轮效应——使静止的飞轮转动起来,一开始必须用很大的力气推,使飞轮转得越来越快,当达到一定的速度后,飞轮
[东吴证券]:计算机行业点评报告:数据是AI的胜负手,点击即可下载。报告格式为PDF,大小0.85M,页数7页,欢迎下载。
