2025高质量数据集建设指引

前 言党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展。习近平总书记深刻把握世界科技发展大势,洞察人工智能的战略意义,在二十届中央政治局第二十次集体学习时指出,“人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。”“我国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大。”这为把握智能化浪潮,释放数据要素价值指明了前进方向,提供了根本遵循。随着大模型技术应用的快速发展,人工智能的研发重点正从“重点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的作用日益凸显。数据作为人工智能发展的三大核心要素之一,已成为人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动“人工智能+”场景落地具有重要意义。国家数据局联合各部门、各地区,构建起“部门协同、央地联动”的工作机制,联合施策、协同发力,积极引导做好高质量数据集建设工作,明确提出“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里”。由国家数据局指导,中国信息通信研究院、国家数据发展研究院、中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会创新驱动发展中心、中国电子信息产业发展研究院等单位,在充分调研的基础上,编制《高质量数据集建设指引》,总结高质量数据集建设方法论,指导推进高质量数据集建设,力争为人工智能纵深发展提供有力支撑。目录一、 高质量数据集建设背景.....................................................1(一) 高质量数据集的发展背景............................................1(二) 高质量数据集的概念内涵............................................3(三) 高质量数据集的分类....................................................5二、 高质量数据集应用需求.....................................................8(一) 基础认知层数据集需求——建立世界的基本认知... 8(二) 场景理解层数据集需求——解析复杂场景关系..... 10(三) 行动规划层数据集需求——规划执行具体行动..... 13三、 高质量数据集建设现状.................................................. 17(一) 全球高质量数据集建设现状......................................17(二) 我国高质量数据集建设现状......................................19(三) 高质量数据集建设困难与挑战..................................21四、 高质量数据集建设方法与实践...................................... 24(一) 典型建设模式.............................................................. 24(二) 建设核心环节.............................................................. 26(三) 建设核心技术.............................................................. 28(四) 数据集质量评价.......................................................... 33五、 高质量数据集建设运营体系.......................................... 40(一) 高质量数据集体系规划..............................................40(二) 高质量数据集工程建设..............................................41(三) 高质量数据集运营管理..............................................42六、 高质量数据集建设推进思路.......................................... 45(一) 体系化布局高质量数据集建设..................................45(二) 设施化推进高质量数据集应用..................................47(三) 生态化赋能高质量数据集发展..................................481一、 高质量数据集建设背景(一)高质量数据集的发展背景在以人工智能为代表的新一轮科技革命和产业变革深入推进的大背景下,数据正日益成为国家基础性战略资源和关键性生产要素。高质量数据集作为人工智能发展的基础支撑,其重要地位不断上升,成为驱动技术创新、赋能产业升级和提升治理能力的重要抓手。当前,高质量数据集的建设正处于政策驱动与场景牵引同步发力、协同推进的关键阶段。1.高质量数据集成为人工智能发展核心支撑人工智能技术迈入大模型时代后,研发重点从“重点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的作用日益凸显。主要表现在:一是将数据视为活的资产,不再是一次性收集、处理后就束之高阁的静态文件,而是一个需要持续投资、管理、监控和优化的动态、演进的战略资产。二是用自动化的、可编程的、可扩展的数据处理流程,取代手动的、一次性的数据处理工作,系统性处理海量数据,并能提升数据质量。三是整合领域专家,将拥有深厚行业知识的主题专家直接整合到数据处理的流水线中。专家知识被用来定义数据标准、标注复杂案例、识别数据中的细微偏差,从而将领域智慧注入数据。四是建立模型反馈闭环,将模型在实际应用中的错误作为诊断信号,用来发现数据中的问题(如标签错误、数据分布不均、边界案例缺失等),然后有针对性地改进数据集。由此就形成了一个“数据飞轮”效应,更好的数据训练出更好的模2型,更好的模型反过来帮助获得更好的数据。大模型参数规模指数级增长与多模态能力的拓展,数据需求从“量级积累”转向“量质并重”。例如,以 OpenAI 为代表的国际领先科技企业正通过强化微调等技术手段,依托小规模但高度精准、精细化、结构化的高质量数据集,实现大模型在垂直领域的专业化和实用化演进。这种“以质取胜”的数据策略显著提升了模型性能与落地能力。而 DeepSeek 模型在复杂逻辑推理任务中取得突破性进展,源于其 R1 模型采用的数学推理数据集,不仅要求答案正确性,更对解题步骤的规范性、逻辑链的完整性提出严格标准,这种精细化的数据设计使得模型在抽象思维能力上实现质的提升。人工智能走进千行百业的具体场景,行业模型的性能跃升越来越依赖数据与场景的深度耦合,从“数据

立即下载
综合
2025-09-16
53页
1.32M
收藏
分享

2025高质量数据集建设指引,点击即可下载。报告格式为PDF,大小1.32M,页数53页,欢迎下载。

本报告共53页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共53页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图 6 政企数据融合应用占比
综合
2025-09-16
来源:数据要素融合应用典型模式与价值路径白皮书(2025年)
查看原文
图 5 跨区域数据融合应用占比
综合
2025-09-16
来源:数据要素融合应用典型模式与价值路径白皮书(2025年)
查看原文
图 4 跨行业数据融合应用占比
综合
2025-09-16
来源:数据要素融合应用典型模式与价值路径白皮书(2025年)
查看原文
图 2 数据标准体系结构图
综合
2025-09-16
来源:数据要素融合应用典型模式与价值路径白皮书(2025年)
查看原文
图 1 数据要素融合应用的研究框架
综合
2025-09-16
来源:数据要素融合应用典型模式与价值路径白皮书(2025年)
查看原文
帕西尼感知推出了全球首款多维触觉+AI 视觉双模态灵巧手 DexH13
综合
2025-09-16
来源:机械设备行业点评报告:灵巧手: 特斯拉机器人迭代最重要的方向,量产落地的“最后一厘米”
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起