AIGC行业跟踪报告(四):中文数字内容成为重要稀缺资源,可用作AI大模型语料库
敬请参阅最后一页特别声明 -1- 证券研究报告 2023 年 3 月 29 日 行业研究 中文数字内容成为重要稀缺资源,可用作 AI 大模型语料库 ——AIGC 行业跟踪报告(四) 互联网传媒 事件:3 月 28 日,中国信息通信研究院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多测评维度的基准及测评工具 AISHPerf-LargeModel,推动我国大模型技术及应用的引领创新。 点评:中文数字内容将成为重要稀缺资源,用于国内 AI 大模型预训练语料库。1)近期国内外巨头纷纷披露 AI 大模型;在 AI 领域 3 大核心是数据、算力、算法,我们认为,数据将成为如 ChatGPT 等 AI 大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI 模型的生产内容高度依赖源头数据。2)根据凤凰网周刊,ChatGPT 的中文答案不准确主要在于目前中文语料学习库少,ChatGPT 中文资料比重还不足千分之一,为 0.09905%,而英文为 92.64708%。3)中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。微软(中国)首席技术官韦青在 3 月 23 日举行的一场行业会议上指出,“ChatGPT 能够提炼的语料是开放的、共享的和免费的”,而“中国版 ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园”里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日经亚洲报道,从 4 月 1 日起,部分外国用户对中国大陆知识基础设施工程的访问将被限制,其中包括知网。 网文平台深耕文化数字产业,海量正版中文数字内容构筑核心竞争壁垒。1)海量数据:网文平台拥有的中文文字字数超 10000 亿字,内容品类包含小说类、科普类、社会类、经管类、法律类、教育教材类等等。2)高质量数据:网文平台拥有的数字内容经过市场长期校验,已形成高质量的数据内容库,而高质量的数据可大幅提升模型训练效果,缩短学习时间和提升学习质量,让AI 模型产出内容稳定;3)正版版权:网文平台高度重视知识产权保护工作,可为 AI 模型公司提供拥有版权的数据集用于训练;4)完整的各类型商业生态链:平台拥有的网络原创驻站作者可实时反馈最新数据,提供最贴近市场和用户的最新数据,让 AI 模型持续更新学习。 网文公司拥有广泛应用场景,AIGC 加速形成从内容到商业化落地的闭环。网络文学为最大的内容源头,当前大量优质网文 IP 尚未被挖掘和开发变现,而AIGC 加快发展产能,推动海量 IP 跨模态变现。AI 技术成果可应用在文字辅助创作、实时对话互动、动漫画及影视创作等场景,服务广大内容创作者,打通 IP 衍生全产业链商业变现。 投资建议:维持互联网传媒行业“买入”评级,拥有中文语料、专业数据资源及数据处理的公司或将持续受益于 AI 大模型发展:推荐中文在线、阅文集团,关注拓尔思、海天瑞声、同方股份、浙数文化、浙文互联、中国科传、掌阅科技。 关注 AIGC 产业链:1)互联网大厂 AI 技术积累深厚,助力强化自身优势&销售产品至 B 端,推荐腾讯控股、百度集团-SW,关注阿里巴巴;2)AI 算法龙头公司业务落地有望加速成长,关注商汤-W、云从科技、格灵深瞳;3)AI在多模态内容应用的推进,内容生成提升电影制作生产力,推荐光线传媒,关注上海电影、万兴科技、美图公司;4)AI 营销数字人提升智能程度:推荐芒果超媒,关注蓝色光标、风语筑、飞天云动、三人行;5)AIGC 应用在游戏领域推广进度有超预期可能,推荐腾讯控股、网易-S、三七互娱,关注中手游。 风险提示:AI 技术研发和产品迭代不及预期风险;AI 行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 买入(维持) 作者 分析师:付天姿 执业证书编号:S0930517040002 021-52523692 futz@ebscn.com 联系人:杨朋沛 021-52523878 yangpengpei@ebscn.com 联系人:赵越 zhaoyue1@ebscn.com 行业与沪深 300 指数对比图 资料来源:Wind 相关研报 AIGC 游戏应用前景广阔,有望助力形态升级和产业变革——AIGC 行业跟踪报告(三)(2023-3-20) 百度文心一言发布:能力尚不完善,战略意义仍具——AIGC 行业跟踪报告(二)(2023-3-16) 海内外 AIGC 热度持续,关注主题扩散至游戏、互联网板块——AIGC 行业跟踪报告(一)(2023-2-22) AIGC 产业再掀热潮,坚实技术底座+SenseMARS 内容生成平台助力商业化突破——商汤-W(0020.HK)内容生成(AIGC)业务发展跟踪点评(2023-2-1) -25%-20%-15%-10%-5%0%5%10%15%22/0322/0422/0522/0622/0722/0822/0922/1022/1122/1223/0123/02传媒(申万) 沪深300 要点 敬请参阅最后一页特别声明 -2- 证券研究报告 互联网传媒 表 1:AIGC 发展受益标的梳理 投资主线 受益标的 互联网大厂: AI 技术积累深厚,强化自身优势&MaaS 商业模式推进 腾讯控股、百度集团-SW、阿里巴巴 AI 算法: AI 算法龙头公司业务落地有望加速成长 商汤-W、云从科技、格灵深瞳 数据要素&数据标注: AIGC 发展路径中数据要素具备稀缺性,符合数字中国主线 中文在线、阅文集团、中国科传、同方股份、浙数文化、浙文互联、拓尔思、海天瑞声 中文数字内容: AI 文本内容创作辅助,提升创作效率和内容可读性 中文在线、阅文集团、掌阅科技 图片: AIGC 大模型有望在图片等多模态进一步突破 万兴科技、美图公司、视觉中国 游戏: AIGC 应用在游戏领域推广进度有超预期可能 腾讯控股、网易-S、三七互娱、中手游、巨人网络、昆仑万维、恺英网络、完美世界、吉比特 电影: AI 内容生成提升动画&真人电影制作生产力 光线传媒、中国电影、上海电影、芒果超媒、万达电影 虚拟人: AI 驱动下,虚拟营销数字人大幅提升智能程度 芒果超媒、捷成股份、蓝色光标、风语筑、三人行、飞天云动、天娱数科 资料来源:光大证券研究所整理 表 2:国内互联网大厂 AI 基础技术布局 算力 算法 研究院 AI 芯片 AI 算力集群 学习框架 大模型名称 大模型涉及领域 NLP CV 多模态 行业化 腾讯 紫霄(推理)、 沧海(视频转码)、 玄灵(智能网卡) 长三角 AI 超算中心 TNN、 Angle HunYuan √
[光大证券]:AIGC行业跟踪报告(四):中文数字内容成为重要稀缺资源,可用作AI大模型语料库,点击即可下载。报告格式为PDF,大小0.87M,页数4页,欢迎下载。



