网络安全标准实践指南:人工智能训练数据清洗安全指南

TC260-PG-2026NA网络安全标准实践指南——人工智能训练数据清洗安全指南(征求意见稿 v1.0-202601)全国网络安全标准化技术委员会秘书处2026 年 01 月本文档可从以下网址获得:www.tc260.org.cn/I前言《网络安全标准实践指南》(以下简称《实践指南》)是全国网络安全标准化技术委员会(以下简称“网安标委”)秘书处组织制定和发布的标准相关技术文件,旨在围绕网络安全法律法规政策、标准、网络安全热点和事件等主题,宣传网络安全相关标准及知识,提供标准化实践指引。本文件起草单位:上海人工智能创新中心、中国电子技术标准化研究院、北京中关村实验室、国家计算机网络应急技术处理协调中心、杭州网易智企科技有限公司、上海市信息安全测评认证中心、北京火山引擎科技有限公司、上海稀宇科技有限公司、中国移动通信集团有限公司、北京百度网讯科技有限公司、中国联合网络通信集团有限公司、华为终端有限公司、中国网络空间研究院、阿里云计算有限公司、广西电网有限责任公司、北京小米移动软件有限公司、深圳市腾讯计算机系统有限公司、OPPO 广东移动通信有限公司、深圳昂楷科技有限公司等。本文件起草人:王迎春、孟令宇、刘勇、贺敏、乔兴格、王广宇、喻佳、李薇、郑佳琪、费凡芮、张妍婷、王锟、苗晴晴、何极、王寒生、郭建领、沈俊成、徐阳、徐艺溦、马梦娜、刘栋、李慧芳、刘源、赵高华、徐浩、刘凯杰、方强、武杨、李根、涂利平等。II声明本《实践指南》版权属于网安标委秘书处,未经秘书处书面授权,不得以任何方式抄袭、翻译《实践指南》的任何部分。凡转载或引用本《实践指南》的观点、数据,请注明“来源:全国网络安全标准化技术委员会秘书处”。III摘要训练数据是人工智能发展的核心要素之一。训练数据清洗是保证模型训练质量的关键步骤。通过保障训练数据的清洗活动安全,确保所有直接用于模型训练的数据的质量,不包含违反社会主义核心价值观的、歧视性的内容,不存在商业违法违规、侵犯他人合法权益的现象,提升模型抵御对抗性风险、满足特定服务类型的安全需求的能力。本文件给出了训练数据清洗活动的安全原则、风险识别维度、清洗方法和实施流程,适用于各类需要对训练数据进行清洗活动的主体。IV目录1 范围 ....................................................................... 12 术语定义 ................................................................... 13 训练数据清洗安全原则 ....................................................... 24 风险识别维度 ............................................................... 35 清洗方法 ................................................................... 76 实施流程 .................................................................. 10附录 A 过滤方法应用示例(资料性) ............................................16附录 B 数据质量指标(资料性)​..............................................18附录 C 风险评估筛查示例(资料性)​..........................................1911 范围本文件给出了训练数据清洗活动的安全原则、风险识别维度、清洗方法和实施流程。本文件适用于各类需要对训练数据进行清洗活动的主体,包括人工智能模型开发方、训练数据供应商等,也可为工程师、相关管理人员及主管部门提供参考。2 术语定义2.1 训练数据 training data所有直接作为模型训练输入的数据。注:包括预训练数据和优化训练数据。[来源:GB/T 45654—2025,3.4]2.2 训练数据清洗活动 training data cleansing activities在数据输入模型训练前,对原始数据集进行错误检测、修正、转换和规范化的系统化过程。2.3 训练数据清洗安全 security of training data cleansing process通过技术和管理措施确保训练数据清洗活动的安全,防止模型因数据问题产生不安全的输出。2.4 偏见 bias对待特定对象、人员或群体时,相较于其他实体出现系统性差别的特性。注:对待指任何一种行动,包括感知、观察、表征、预测或决定。[来源:GB/T 41867—2022,3.4.10]22.5 公平性 fairness尊重既定事实、社会规范和信仰,且不受偏袒或不公正歧视影响的对待、行为或结果。注1:对公平性的考虑是与环境高度相关的,并且因文化、代际、地理和政治观点而异。注2:公平不等于没有偏见。偏见并不总是导致不公平,不公平可能是由偏见以外的因素引起的。[来源:GB/T 41867—2022,3.4.1]2.6 重要数据 key data特定领域、特定群体、特定区域或达到一定精度和规模的,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据。注:仅影响组织自身或公民个体的数据一般不作为重要数据。[来源:GB/T 43697—2024,3.2]2.7 个人信息 personal information以电子或其他方式记录的与已识别或可识别的自然人有关的各种信息。[来源:GB/T 45574—2025,3.1]2.8 敏感个人信息 sensitive personal information一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息。[来源:GB/T 45574—2025,3.2]3 训练数据清洗安全原则训练数据清洗应遵循安全可控、分布多样、透明可溯、持续迭代3的原则开展,具体如下:a)安全可控原则:训练数据清洗应在保障数据合法合规与内容安全的前提下进行。b)分布多样原则:训练数据清洗需兼顾数据来源和场景的多样性,以支撑模型获得良好的泛化能力。c)透明可溯原则:记录数据清洗过程中所采用的规则、标注标准与关键决策,确保清洗操作可审计、过程可复现、结果可追溯。d)持续迭代原则:数据清洗策略应随业务场景、模型反馈与安全环境的变化而动态调整。4 风险识别维度4.1 数据质量风险训练数据本身存在质量问题,影响模型的训练效果,并可能放大其他的安全风险,主要风险包括:a)完整性不足:训练数据中存在大量缺失数据,导致信息不完整。b)准确性不足:训练数据中包含内容错误、不精确或不真实的数据。c)时效性不足:训练数据过于陈旧,且未标明时间局限性,已与当前现实情况不符。d)

立即下载
信息科技
2026-01-22
全国网络安全标准化技术委员会秘书处
25页
1.1M
收藏
分享

[全国网络安全标准化技术委员会秘书处]:网络安全标准实践指南:人工智能训练数据清洗安全指南,点击即可下载。报告格式为PDF,大小1.1M,页数25页,欢迎下载。

本报告共25页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共25页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
分业务收入预测
信息科技
2026-01-22
来源:自主可控,UTG护航空天
查看原文
全球 MLCC 配方粉市场竞争格局(2023)
信息科技
2026-01-22
来源:自主可控,UTG护航空天
查看原文
球形二氧化硅应用产业链 图表30:高纯石英产业链
信息科技
2026-01-22
来源:自主可控,UTG护航空天
查看原文
2016-2025H1 蚌埠中恒收入及 yoy 图表28:2016-2025H1 蚌埠中恒净利润及 yoy
信息科技
2026-01-22
来源:自主可控,UTG护航空天
查看原文
2014-2025H1 应用材料收入及 yoy 图表26:2014-2025H1 应用材料毛利率
信息科技
2026-01-22
来源:自主可控,UTG护航空天
查看原文
深圳国显收入及 yoy 图表24:深圳国显净利润及 yoy
信息科技
2026-01-22
来源:自主可控,UTG护航空天
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起