软件与服务行业研究:中文互联网基础语料3.0发布,关注大模型语料投资机遇
请阅读最后评级说明和重要声明 丨证券研究报告丨 行业研究丨点评报告丨软件与服务 [Table_Title] 中文互联网基础语料 3.0 发布,关注大模型语料投资机遇 报告要点 [Table_Summary]9 月 18 日,在昆明召开的 2025 年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料 3.0 正式向社会发布。随着中文互联网基础语料 3.0 发布等高质量中文语料持续发布,中文高质量语料供给有望加强,同时在大模型加速落地的过程中,数据的价值或将进一步被挖掘。建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司。 分析师及联系人 [Table_Author] 宗建树 陈耀文 SAC:S0490520030004 SAC:S0490525070002 SFC:BUX668 %%%%%%%%research.95579.com1 请阅读最后评级说明和重要声明 丨证券研究报告丨 更多研报请访问 长江研究小程序 软件与服务 cjzqdt11111 [Table_Title2] 中文互联网基础语料 3.0 发布,关注大模型语料投资机遇 行业研究丨点评报告 [Table_Rank] 投资评级 看好丨维持 [Table_Summary2] 事件描述 9 月 18 日,在昆明召开的 2025 年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料 3.0 正式向社会发布。 事件评论 中文互联网基础语料 3.0 发布,中文语料库进一步丰富。此次发布的中文互联网基础语料3.0 是在前期发布中文互联网基础语料 1.0 和 2.0 的基础上,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料 3.0。本批语料扩大了优质中文网站信源范围,加强了违法不良信息过滤,数据量为 120GB,可为大模型训练和人工智能发展提供可信数据支持。目前,中文互联网语料资源平台已上线包含中文互联网基础语料 3.0、人民网主流价值数据集、中华传统文化语料库等 20 个中文语料数据集,将为我国人工智能技术创新和产业发展提供有力支撑和保障。 AI 大模型持续发展,语料将是模型性能提升关键。数据决定了模型最终学到的“知识”和“能力”。随着大模型的参数规模持续扩大,对数据质量的要求也进一步提升,高质量的数据将是影响模型最终性能的关键要素。以 DeepSeek 系列模型为例,DeepSeek-LLM(V1)构建了一个包含约 2 万亿 token 的中英双语预训练数据集,以确保数据多样性和高质量;DeepSeek-V2 扩展了数据量并提高了数据质量,其训练使用的多语言语料库约含 8.1 万亿 token;DeepSeek-V3 所使用的语料库则进一步提升到 14.8 万亿 token。DeepSeek 模型性能也随着训练数据集质量同步提升。随着大模型进一步发展,对于高质量语料数据的需求或将进一步释放。 中文语料目前较为匮乏,其价值有望进一步提升。当前,不同语种的语料资源质量与规模差异巨大,在全球数据训练集中,英语等主流语言的高质量数据较为丰富,而中文语料数据由于中文语料、科研成果等高质量数据集开放程度低,企业用于训练的语料来源不清晰、权属不明确,开源后存在一定的合规隐患等原因,质量和规模均大幅低于英文语料,仅占 1.3%。同时,Epoch 研究表明,基于当前语料消耗速度,预计将在 2026 年,现有的公开高质量语言数据即将耗尽。我们认为随着中文高质量语料进一步被消耗,其价值有望进一步被市场发现。 中文互联网基础语料 3.0 发布,关注中文语料投资机遇。随着中文互联网基础语料 3.0 发布等高质量中文语料持续发布,中文高质量语料供给有望加强,同时在大模型加速落地的过程中,数据的价值或将进一步被挖掘。建议关注具备高质量数据资源的厂商,尤其在医疗、金融、工业等细分领域具有稀缺数据的公司。 风险提示 1、政策推进不及预期; 2、下游需求不及预期。 市场表现对比图(近 12 个月) 资料来源:Wind 相关研究 [Table_Report]•《AI 产业跟踪:通义首个深度研究 Agent 开源,看好 AI Agent 迭代及其商业化落地加速》2025-09-21 •《AI 产业跟踪:OpenAI 发布 GPT-5-Codex,持续看好 AI Agent 商业化落地进展》2025-09-18 •《AI产业跟踪:x-AI发布智能编程模型 Grok Code Fast 1,持续关注模型迭代与商业化进展》2025-09-18 0%34%69%103%2024/92025/12025/52025/9软件与服务沪深300指数2025-09-22%%%%%%%%research.95579.com2 请阅读最后评级说明和重要声明 3 / 5 行业研究 | 点评报告 风险提示 1、政策推进不及预期:当前数据要素在数据分级分类,数据定价,数据资产入表等层面均没有全国维度的统一标准规范,仍需要后续政策予以进一步明确。政策推进不及预期会在一定程度上影响语料交易体系的构筑。 2、下游需求不及预期:人工智能本质是通过供给创新催生需求扩容,目前大模型仍处于商业模式摸索期,倘若本轮技术变革无法真实带动下游需求,或将影响高质量语料需求。 %research.95579.com3 请阅读最后评级说明和重要声明 4 / 5 行业研究 | 点评报告 投资评级说明 行业评级 报告发布日后的 12 个月内行业股票指数的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评级标准为: 看 好: 相对表现优于同期相关证券市场代表性指数 中 性: 相对表现与同期相关证券市场代表性指数持平 看 淡: 相对表现弱于同期相关证券市场代表性指数 公司评级 报告发布日后的 12 个月内公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评级标准为: 买 入: 相对同期相关证券市场代表性指数涨幅大于 10% 增 持: 相对同期相关证券市场代表性指数涨幅在 5%~10%之间 中 性: 相对同期相关证券市场代表性指数涨幅在-5%~5%之间 减 持: 相对同期相关证券市场代表性指数涨幅小于-5% 无投资评级: 由于我们无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使我们无法给出明确的投资评级。 相关证券市场代表性指数说明:A 股市场以沪深 300 指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以恒生指数为基准。 办公地址 [Table_Contact]上海 武汉 Add /虹口区新建路 200 号国华金融中心 B 栋 22、23 层 P.C /(200080) Add /武汉市江汉区淮海路 88 号长江证券大厦 37 楼 P.C /(430023) 北京 深圳 Add /朝阳区景辉街 16 号院 1 号楼泰
[长江证券]:软件与服务行业研究:中文互联网基础语料3.0发布,关注大模型语料投资机遇,点击即可下载。报告格式为PDF,大小0.58M,页数5页,欢迎下载。
