互联网传媒行业大模型“安卓时刻”:高质量数据为“胜负手”

大模型“安卓时刻”:高质量数据为“胜负手”证券研究报告互联网传媒行业/行业深度报告2023年3月31日分析师:杨晓峰登记编号:S1220522040001联系人:杨昊摘要21、大模型的“安卓时刻”到来,训练数据质量或是后续竞争关键•Meta大模型LLaMA开源且持续改进,为行业带来变数。我们认为可以参考安卓与iOS的关系,预判开源大模型与OpenAI的GPT模型的关系,当前国内外科技公司都在紧锣密鼓的布局大模型的开发,“安卓时代”来临后,竞争或持续激烈化,格局或将生变。•而从ChatGPT等模型的经验来看,数据具有重要意义。出于模型准确度和专业性的需求,学术期刊、书籍、代码等资料类型在训练数据中有独特价值。2、特别应当关注代码和权威资料作为高质量训练数据的价值•代码:从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源,相对门槛较低;或是企业自身积累的代码资源。•权威资料:关注具有较高权威性的资源,如知乎具有较为丰富的语料,学术期刊、科学书籍的公开可得性更低,因此也具备更强的稀缺性。3、建议关注高质量数据产业链参与方:•中国科传:权威文本资料稀缺标的,中国最大的综合性科技出版机构,业务包括期刊、科学图书、出版物进口等,积累有较为丰富的专业资料,且已经有科学智库、中国生物志库等数据库产品生成。•海天瑞声:高质量数据供应商,与各类大型科技公司、研究机构有较为稳定的合作关系。投资建议:建议关注文本数据资料相关投资机会。•高质量数据相关公司:1)权威资料及数据供应商,中国科传(万方数据库)、海天瑞声(AI训练数据供应商);2)低估值专业出版公司,如中南传媒、凤凰传媒;•大模型开发公司:昆仑万维(昆仑天工)、三六零、百度集团(“文心一言”)、腾讯控股(混元大模型)、阿里巴巴(通义大模型)。风险提示:开源大模型开发不及预期;AI大模型应用不及预期;数据使用政策发生变化。mXdWcUvXmRsPrM7NcM6MnPmMpNtQjMmMmQlOqQpN9PnMqNMYpOoNNZmNrP目录一.大开源背景下,训练数据质量的比拼是关键二.高质量数据之代码库:开源平台供给丰富资源三.高质量数据之权威文本:期刊图书资料有获取壁垒四.建议关注高质量数据产业链参与方五.投资建议六.风险提示31.1 META LLaMA:或给大模型竞争格局带来变数数据来源:OpenAI,方正证券研究所4图表:Github上公开的LLaMA源代码图表:国内外互联网科技公司积极布局AI大模型•META开源大模型LLaMA体积小,性能胜过GPT-3:2023年2月25日,Meta发布LLaMA模型,发布之后引起了广泛讨论,通过与其他大模型,特别是GPT-3的对比,发现LLaMA性能更优,模型体积却大幅减小。2023年3月初,Github上有公开LLaMA模型全部代码,截至目前为止,已经收获15.2K的收藏。•国内已有多家公司已有或正在开发相关智能大模型。除了国外的微软、META、Google以外,国内的互联网科技公司如腾讯、阿里巴巴、百度、昆仑万维等都有自己的模型布局RLHF在预训练完成的GPT-3上进行调优,分为三步进行:(1)有监督的调优(2)模拟人类偏好(3)近端策略优化(PPO)步骤(1)仅进行一次,而步骤(2)、(3)可进行重复迭代,不断更新训练回报模型从而获得更优的策略模型。1.2 ChatGPT的经验:数据训练意义重大图表:GPT的原理数据来源:OpenAI,方正证券研究所5图表:ChatGPT的RLHF调优流程Stage1Stage2模型预训练(无监督)参数微调整(有监督)未标注的语料Transformer模型自主训练模型迁移至NLP任务对特定任务进行fine-tuning预训练的GPT调优后的GPT图表:AI专家吴恩达“人工智能领域的二八定律”数据来源:OpenAI,方正证券研究所整理6图表:人工智能三要素数据算法算力数据收集数据标注AI标注人工标注模型训练•人工标注团队进行的数据标注是ChatGPT得到优化的壁垒。•通过在调优过程中加入数万条人工编写的数据,同时对模型给出的回答进行打分,让AI学习走向更好的方向,标注数据的质量直接影响到模型最终的学习结果。图表:OpenAI数据标注规则HelpfulTruthfulHarmless标注员从三个角度进行打分或评判,并对多个版本的回答进行优劣排序。完成人类偏好学习1.2 ChatGPT的经验:数据训练意义重大•根据OpenAI公开论文显示,ChatGPT的训练集使用了总计约320TB的文字信息,涵盖超4000亿词和约31亿个网页,其中包括来自新闻、博客、社交媒体的内容。•模型数据集主要来自:普通爬虫、期刊、Reddit链接、书籍、维基百科和其他数据集。1.3 期刊与书籍:文本AI训练集中权威资料的主要来源图表:AI算法原始训练集当中爬虫和期刊是重要来源(单位:GB)7图表:ChatGPT训练数据来源文字信息320TB单词4000亿个网页31亿个维基百科书籍期刊Reddit链接普通爬虫其他合计GPT-14.64.6GPT-24040GPT-311.42110150570753The Pile v1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550数据来源:Life Architect,方正证券研究所图表:关于书籍数据集的来源数据来源:Life Architect,方正证券研究所8注:单位为GB,数值为原始训练集大小。来源GPT-1BookCorpusGPT-3古腾堡语料库The Pile v1古腾堡语料库,BookCorpus,Books3Megatron-11BBookCorpusMT-NLG古腾堡语料库,BookCorpus,Books3BookCorpus来源于Smashwords35万本电子书(5.5万+免费)古腾堡语料库来源于古腾堡项目电子文本档案3.6万本免费电子书图书数据集Books3196640本书籍1.3 期刊与书籍:文本AI训练集中权威资料的主要来源图表:关于期刊数据集的来源数据来源:Life Architect,方正证券研究所9注:单位为GB,数值为原始训练集大小。来源The Pile v1PubMed Central,ArXiv,FreeLaw,PubMed Abstracts,PhilPapers,NIH ExPorterMT-NLGPubMed Abstracts,NIH ExPorter,ArXivGopherScienceDirect,Gale,NCBI,AcadamiaArXiv:论文预印本服务器(数学、物理等8个领域)3000W+出版物PubMed Abstracts:生物医学文章在线存储库1946至今60W+预印本1991至今NIH ExPorter 1985至今1.3 期刊与书籍:文本AI训练集中权威资料的主要来源•ChatGPT通过网络爬虫获取文本数据的预训练方式引发争议,在Bing接入互联网材料的早期,由于基础资料的质量降低,其回应内容出错

立即下载
互联网
2023-04-12
方正证券
40页
3.47M
收藏
分享

[方正证券]:互联网传媒行业大模型“安卓时刻”:高质量数据为“胜负手”,点击即可下载。报告格式为PDF,大小3.47M,页数40页,欢迎下载。

本报告共40页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共40页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
提及公司表
互联网
2023-04-12
来源:传媒行业专题研究:AI+营销,助力行业生产力革新
查看原文
AIGC+营销上市公司一览
互联网
2023-04-12
来源:传媒行业专题研究:AI+营销,助力行业生产力革新
查看原文
我国 AIGC 产业链
互联网
2023-04-12
来源:传媒行业专题研究:AI+营销,助力行业生产力革新
查看原文
Rosebud 制作的 AI 商品模特
互联网
2023-04-12
来源:传媒行业专题研究:AI+营销,助力行业生产力革新
查看原文
AiAdvertising 官网简介
互联网
2023-04-12
来源:传媒行业专题研究:AI+营销,助力行业生产力革新
查看原文
Typeface 提供访问权限
互联网
2023-04-12
来源:传媒行业专题研究:AI+营销,助力行业生产力革新
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起