2025年前沿人工智能风险管理框架报告
前沿⼈⼯智能⻛险管理框架(1.0版) 执⾏摘要 我们对可信AGI的发展愿景 当前⼈⼯智能(AI)技术正以前所未有的速度取得突破性进展,各类系统在众多领域已达到或超越⼈类⽔平。这些突破性进展为我们解决⼈类⾯临的重⼤挑战提供了历史机遇⸺从推动科学发现、提升医疗质量和⼈的健康福祉,到促进经济⽣产⼒的提升。但与此同时,快速发展的技术也带来了前所未有的⻛险。随着先进⼈⼯智能的研发与部署速度超越了关键安全措施的发展速度,建⽴完善的⻛险管理机制已成为全球科技发展的当务之急。 作为我国⼈⼯智能领域的新型科研机构,上海⼈⼯智能实验室致⼒于打造“突破型、引领型、平台型”⼀体化的⼤型综合性研究基地,推动⼈⼯智能技术的安全有益发展。为积极应对技术发展带来的挑战,推动全球在⼈⼯智能安全领域的良性竞争,实验室提出了AI-45°平衡律1,作为实现可信AGI的发展路线图。 前沿⼈⼯智能⻛险管理框架 上海⼈⼯智能实验室联合安远AI2,正式发布《⼈⼯智能前沿⻛险管理框架(1.0版)》(以下简称“框架”),旨在为通⽤型⼈⼯智能(General-Purpose AI)模型研发者提供全⾯的⻛险管理指导⽅针,主动识别、评估、缓解和治理⼀系列对公共安全和国家安全构成威胁的严重⼈⼯智能⻛险,保障个体与社会的安全。 本框架旨在为通⽤型⼈⼯智能模型研发者管理其通⽤型⼈⼯智能模型可能带来的严重⻛险提供指导。框架充分借鉴了安全攸关型⾏业的⻛险管理标准与最佳实践,涵盖⻛险管理的六⼤核⼼流程:⻛险识别、⻛险阈值、⻛险分析、⻛险评价、⻛险缓解及⻛险治理。 ● 1. ⻛险识别:本章节聚焦通⽤型⼈⼯智能模型可能引发的严重⻛险,明确四⼤核⼼⻛险类型:滥⽤⻛险、失控⻛险、意外⻛险及系统性⻛险。我们计划通过持续更新⻛险分类体系,动态应对未知与新兴⻛险。 ● 2. ⻛险阈值:本章节明确了⼀系列不可接受的⻛险结果(红线)以及触发更⾼级别安全保障措施的早期预警指标(⻩线)。我们针对可能威胁公共安全和国家安全的⼏个关键领域设定阈值,其中包括:⽹络攻击、⽣物威胁、⼤规模说服和有害操控,以及失控⻛险。 2 安远AI(Concordia AI)是⼀家AI安全与治理领域第三⽅研究和咨询机构,同时是⽬前该领域中国唯⼀的社会企业。 1 Yang, C. et al., "Towards AI-45° Law: A Roadmap to Trustworthy AGI," arXiv preprint, 2024, https://arxiv.org/abs/2412.14186 前沿⼈⼯智能⻛险管理框架(1.0版) ● 3. ⻛险分析:本章节建议在⼈⼯智能全⽣命周期中贯穿实施动态⻛险分析,以判断模型是否越过⻩线⸺即达到触发更⾼级别安全措施的早期预警指标。我们建议AI研发者在研发前和部署前进⾏系统性评估,以便为关键的部署决策提供参考。同步应建⽴部署后持续监测机制,为新⼀代系统研发提供安全指引。与本框架同时发布的还有⼀份针对⼀系列通⽤型⼈⼯智能模型的⻛险评测技术报告。 ● 4. ⻛险评价:建⽴三级⻛险分级体系:绿⾊区域(基于常规措施可安全部署)、⻩⾊区域(需强化安全防护与授权)、红⾊区域(需特殊措施,如限制部署或限制研发)。我们建议对缓解措施实施后的剩余⻛险进⾏迭代评估,进⼀步采取降低⻛险的措施直⾄⻛险达到可接受⽔平。 ● 5. ⻛险缓解:构建全⽣命周期纵深防御⻛险缓解策略,包含三种⻛险缓解措施:安全训练措施、部署缓解措施及模型安保措施,并根据模型处于绿⾊区域、⻩⾊区域或红⾊区域设定不同的保障级别。我们呼吁全球持续加⼤AI安全基础研究投⼊,当前技术⼿段尚难以充分保障先进AI系统的安全性。 ● 6. ⻛险治理:提出监督和调整整个⻛险管理流程的治理路径。建⽴四维治理体系:内部治理机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制,并根据模型处于绿⾊区域、⻩⾊区域或红⾊区域设定不同的保障级别。 AI安全作为全球公共产品 上海⼈⼯智能实验室坚信AI安全是⼀项全球公共产品3。我们率先提出这份前沿AI⻛险管理框架,汇集了现阶段对重⼤AI⻛险的认知与应对思路。我们倡导前沿AI研发机构、政策制定者及相关⽅采⽤兼容的⻛险管理框架。AI技术的跃迁⽇新⽉异,唯有尽快在当下采取集体⾏动,才能让变⾰性AI真正造福⼈类,并避免灾难性后果。我们诚邀各⽅就框架落地开展合作,并承诺以公开透明的⽅式分享实践成果。只有当关键组织同步落实同等强度的防护措施,社会层⾯的⻛险管控才能⽣效。⾯对⻛险与机遇并存的全新局⾯,唯有以协同共治、系统施策的思维,⽅能凝聚合⼒、破局前⾏。3 上海⼈⼯智能实验室治理研究中⼼、清华⼤学产业发展与环境治理研究中⼼、上海交通⼤学国际与公共事务学院等,《⼈⼯智能安全作为全球公共产品研究报告》,2024,https://www.sipa.sjtu.edu.cn/show/5646; 安远AI、⽜津⻢丁⼈⼯智能治理倡议和卡内基国际和平研究院,《⼈⼯智能安全作为全球公共产品:影响、挑战与研究重点》(Examining AI Safety as a Global Public Good: Implications, Challenges, and Research Priorities),2025 https://oms-www.files.svdcdn.com/production/downloads/academic/Examining_AI_Safety_as_a_Global_Public_Good.pdf?dm=1741767073 前沿⼈⼯智能⻛险管理框架(1.0版) 贡献与致谢 科学总监:周伯⽂ 主要撰稿⼈:谢旻希†、⽅亮*、徐甲*、段雅⽂*、邵婧* 贡献者:张杰、刘东瑞、王伟冰、程远、俞怡、郭嘉轩、陆超超 感谢安远AI伙伴刘顺昌等⼈对本报告内容的贡献。 † 表⽰第⼀作者 * 表⽰等同贡献 版本与更新计划 《前沿⼈⼯智能⻛险管理框架》旨在成为⼀份持续迭代的动态⽂档。我们将定期审阅并评估本框架的内容及其实⽤性,以适时进⾏更新。关于《前沿⼈⼯智能⻛险管理框架》的任何意⻅或建议,均可随时通过电⼦邮件发送⾄主要撰稿⼈,我们将每半年进⾏⼀次集中审阅和整合。 如何引⽤本报告:上海⼈⼯智能实验室,安远AI,《⼈⼯智能前沿⻛险管理框架(1.0版)》,2025 前沿⼈⼯智能⻛险管理框架(1.0版) ⽬录 执⾏摘要.......................................................................................................................... 框架总览........................................................................................................................1 ⼈⼯智能⻛险管理的六个阶段.............................................................................
2025年前沿人工智能风险管理框架报告,点击即可下载。报告格式为PDF,大小13.97M,页数52页,欢迎下载。



