人工智能高质量数据集建设指南-信通院

人工智能高质量数据集 建设指南 中国信息通信研究院人工智能研究所 清华大学计算社会科学与国家治理实验室 中国人工智能产业发展联盟数据委员会 2025年7月 版权声明本报告版权属于中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟”。违反上述声明者,编者将追究其相关法律责任。 前 言 党中央和国家高度重视推动数据赋能人工智能高质量发展。2025年 4 月 25 日,中央政治局就加强人工智能发展和监管进行第二十次集体学习,习近平总书记指出,要“深化数据资源开发利用和开放共享”,要“全面推进人工智能科技创新、产业发展和赋能应用”。近年来,国家相关部委和地方政府围绕高质量数据集建设和运营、数据标注产业发展等出台系列政策,并通过投资奖补、标准制定和验证、样板案例建设等举措积极推进高质量数据集政策落地。党中央和国家的政策部署为业界推进高质量数据集建设提供了方向指引和根本遵循。 随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。人工智能发展正在进入“数据驱动”新阶段,高质量数据集的建设不仅是提升 AI 模型性能的关键,也是推动“人工智能+”行动落地的重要保障。然而现阶段,大量机构在高质量数据集建设中面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战,不知道需要什么数据集、如何建设数据集、怎样评估数据集质量,制约了人工智能应用落地。《人工智能高质量数据集建设指南》正是在此背景下启动起草,旨在为业界建设高质量数据集提供有实操价值的指导和参考。 指南从政策、技术、产业层面介绍了当前高质量数据集建设的背景,梳理了高质量数据集的定义、特征、分类、建设主体以及“三大建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了科学、通信、交通、铁塔、医疗、文化等领域高质量数据集建设实践,最后从工程能力、技术创新、质量评估、版权合规、基础制度创新等层面对未来高质量数据集建设的趋势进行了展望,并提出了对政府部门和企业机构的建议,为业界推进高质量数据集建设提供有力支撑。 目 录 一、高质量数据集成为人工智能应用升级的核心要素............................................ 1 (一)政策层面:“人工智能+数据要素”政策协同布局 .................................. 1 (二)技术层面:人工智能技术演进重构数据工程范式 ................................ 3 (三)产业层面:数据成为人工智能行业应用的护城河 ................................ 7 二、高质量数据集建设的现状和难点........................................................................ 8 (一)高质量数据集的“三高”特征 ....................................................................... 8 (二)高质量数据集分类维度 .............................................................................. 9 (三)高质量数据集建设主体 ............................................................................ 13 (四)高质量数据集建设难点 ............................................................................ 14 三、搭建人工智能数据工程能力核心要素.............................................................. 15 (一)管理体系 .................................................................................................... 16 (二)开发维护 .................................................................................................... 17 (三)质量控制 .................................................................................................... 18 (四)资源运营 .................................................................................................... 22 (五)合规可信 .................................................................................................... 23 四、高质量数据集建设路径设计.............................................................................. 24 (一)体系规划阶段——构建高质量数据集认知框架 .................................... 24 (二)工程建设阶段——打造高质量数据集生产体系 .................................... 26 (三)质量监测阶段——构建高质量数据集全流程管控机制 ........................ 27 五、高质量数据集“炼化”流程和技术 ...................................................................... 29 (一)数据设计和采集 ........................................................................................ 29 (二)数据治理 .................................................................................................... 30 (三)数据标注 ............................

立即下载
信息科技
2025-09-08
74页
2.88M
收藏
分享

人工智能高质量数据集建设指南-信通院,点击即可下载。报告格式为PDF,大小2.88M,页数74页,欢迎下载。

本报告共74页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共74页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
按市值计算的中证新能源指数,该指数可能会从电力需求增长中受益
信息科技
2025-09-08
来源:2025年全球储能:电力瓶颈下的中国人工智能:中国能否胜出?
查看原文
中国电气化大趋势的受益者
信息科技
2025-09-08
来源:2025年全球储能:电力瓶颈下的中国人工智能:中国能否胜出?
查看原文
与电气化趋势并行的投资行业
信息科技
2025-09-08
来源:2025年全球储能:电力瓶颈下的中国人工智能:中国能否胜出?
查看原文
根据以电池为20%的太阳能和风能发电容量提供备用电力的经验法则,假设持续时间为4小时,中国将需要3300GW的电池,约12000GWh(12TWh)
信息科技
2025-09-08
来源:2025年全球储能:电力瓶颈下的中国人工智能:中国能否胜出?
查看原文
各类发电来源的总投资情况,中国尤其在太阳能和风力发电领域进行了大量投资
信息科技
2025-09-08
来源:2025年全球储能:电力瓶颈下的中国人工智能:中国能否胜出?
查看原文
中国电网基础设施总投资
信息科技
2025-09-08
来源:2025年全球储能:电力瓶颈下的中国人工智能:中国能否胜出?
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起