互联网传媒行业大模型“安卓时刻”：高质量数据为“胜负手”

大模型“安卓时刻”：高质量数据为“胜负手”证券研究报告互联网传媒行业/行业深度报告2023年3月31日分析师：杨晓峰登记编号：S1220522040001联系人：杨昊摘要21、大模型的“安卓时刻”到来，训练数据质量或是后续竞争关键•Meta大模型LLaMA开源且持续改进，为行业带来变数。我们认为可以参考安卓与iOS的关系，预判开源大模型与OpenAI的GPT模型的关系，当前国内外科技公司都在紧锣密鼓的布局大模型的开发，“安卓时代”来临后，竞争或持续激烈化，格局或将生变。•而从ChatGPT等模型的经验来看，数据具有重要意义。出于模型准确度和专业性的需求，学术期刊、书籍、代码等资料类型在训练数据中有独特价值。2、特别应当关注代码和权威资料作为高质量训练数据的价值•代码：从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源，相对门槛较低；或是企业自身积累的代码资源。•权威资料：关注具有较高权威性的资源，如知乎具有较为丰富的语料，学术期刊、科学书籍的公开可得性更低，因此也具备更强的稀缺性。3、建议关注高质量数据产业链参与方：•中国科传：权威文本资料稀缺标的，中国最大的综合性科技出版机构，业务包括期刊、科学图书、出版物进口等，积累有较为丰富的专业资料，且已经有科学智库、中国生物志库等数据库产品生成。•海天瑞声：高质量数据供应商，与各类大型科技公司、研究机构有较为稳定的合作关系。投资建议：建议关注文本数据资料相关投资机会。•高质量数据相关公司：1）权威资料及数据供应商，中国科传（万方数据库）、海天瑞声（AI训练数据供应商）；2）低估值专业出版公司，如中南传媒、凤凰传媒；•大模型开发公司：昆仑万维（昆仑天工）、三六零、百度集团（“文心一言”）、腾讯控股（混元大模型）、阿里巴巴（通义大模型）。风险提示：开源大模型开发不及预期；AI大模型应用不及预期；数据使用政策发生变化。mXdWcUvXmRsPrM7NcM6MnPmMpNtQjMmMmQlOqQpN9PnMqNMYpOoNNZmNrP目录一．大开源背景下，训练数据质量的比拼是关键二．高质量数据之代码库：开源平台供给丰富资源三．高质量数据之权威文本：期刊图书资料有获取壁垒四．建议关注高质量数据产业链参与方五．投资建议六．风险提示31.1 META LLaMA：或给大模型竞争格局带来变数数据来源：OpenAI，方正证券研究所4图表：Github上公开的LLaMA源代码图表：国内外互联网科技公司积极布局AI大模型•META开源大模型LLaMA体积小，性能胜过GPT-3：2023年2月25日，Meta发布LLaMA模型，发布之后引起了广泛讨论，通过与其他大模型，特别是GPT-3的对比，发现LLaMA性能更优，模型体积却大幅减小。2023年3月初，Github上有公开LLaMA模型全部代码，截至目前为止，已经收获15.2K的收藏。•国内已有多家公司已有或正在开发相关智能大模型。除了国外的微软、META、Google以外，国内的互联网科技公司如腾讯、阿里巴巴、百度、昆仑万维等都有自己的模型布局RLHF在预训练完成的GPT-3上进行调优，分为三步进行：（1）有监督的调优（2）模拟人类偏好（3）近端策略优化（PPO）步骤（1）仅进行一次，而步骤（2）、（3）可进行重复迭代，不断更新训练回报模型从而获得更优的策略模型。1.2 ChatGPT的经验：数据训练意义重大图表：GPT的原理数据来源：OpenAI，方正证券研究所5图表：ChatGPT的RLHF调优流程Stage1Stage2模型预训练（无监督）参数微调整（有监督）未标注的语料Transformer模型自主训练模型迁移至NLP任务对特定任务进行fine-tuning预训练的GPT调优后的GPT图表：AI专家吴恩达“人工智能领域的二八定律”数据来源：OpenAI，方正证券研究所整理6图表：人工智能三要素数据算法算力数据收集数据标注AI标注人工标注模型训练•人工标注团队进行的数据标注是ChatGPT得到优化的壁垒。•通过在调优过程中加入数万条人工编写的数据，同时对模型给出的回答进行打分，让AI学习走向更好的方向，标注数据的质量直接影响到模型最终的学习结果。图表：OpenAI数据标注规则HelpfulTruthfulHarmless标注员从三个角度进行打分或评判，并对多个版本的回答进行优劣排序。完成人类偏好学习1.2 ChatGPT的经验：数据训练意义重大•根据OpenAI公开论文显示，ChatGPT的训练集使用了总计约320TB的文字信息，涵盖超4000亿词和约31亿个网页，其中包括来自新闻、博客、社交媒体的内容。•模型数据集主要来自：普通爬虫、期刊、Reddit链接、书籍、维基百科和其他数据集。1.3 期刊与书籍：文本AI训练集中权威资料的主要来源图表：AI算法原始训练集当中爬虫和期刊是重要来源（单位：GB）7图表：ChatGPT训练数据来源文字信息320TB单词4000亿个网页31亿个维基百科书籍期刊Reddit链接普通爬虫其他合计GPT-14.64.6GPT-24040GPT-311.42110150570753The Pile v1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550数据来源：Life Architect，方正证券研究所图表：关于书籍数据集的来源数据来源：Life Architect，方正证券研究所8注：单位为GB，数值为原始训练集大小。来源GPT-1BookCorpusGPT-3古腾堡语料库The Pile v1古腾堡语料库，BookCorpus，Books3Megatron-11BBookCorpusMT-NLG古腾堡语料库，BookCorpus，Books3BookCorpus来源于Smashwords35万本电子书（5.5万+免费）古腾堡语料库来源于古腾堡项目电子文本档案3.6万本免费电子书图书数据集Books3196640本书籍1.3 期刊与书籍：文本AI训练集中权威资料的主要来源图表：关于期刊数据集的来源数据来源：Life Architect，方正证券研究所9注：单位为GB，数值为原始训练集大小。来源The Pile v1PubMed Central，ArXiv，FreeLaw，PubMed Abstracts，PhilPapers，NIH ExPorterMT-NLGPubMed Abstracts，NIH ExPorter，ArXivGopherScienceDirect，Gale，NCBI，AcadamiaArXiv：论文预印本服务器（数学、物理等8个领域）3000W+出版物PubMed Abstracts：生物医学文章在线存储库1946至今60W+预印本1991至今NIH ExPorter 1985至今1.3 期刊与书籍：文本AI训练集中权威资料的主要来源•ChatGPT通过网络爬虫获取文本数据的预训练方式引发争议，在Bing接入互联网材料的早期，由于基础资料的质量降低，其回应内容出错

立即下载

互联网

2023-04-12

方正证券

40页

3.47M

[方正证券]:互联网传媒行业大模型“安卓时刻”：高质量数据为“胜负手”，点击即可下载。报告格式为PDF，大小3.47M，页数40页，欢迎下载。

本报告共40页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共40页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

互联网传媒行业大模型“安卓时刻”：高质量数据为“胜负手”

关于我们

联系我们

互联网传媒行业大模型“安卓时刻”：高质量数据为“胜负手”

关于我们

联系我们

小程序

公众号