2024生成式大模型安全评估白皮书

Large Language ModelGeneratePrompt生成式大模型安全评估白皮书自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等一系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。前言联合编写版权声明编写组组长智能算法安全重点实验室(中国科学院)公安部第三研究所蚂蚁安全实验室编写组成员敖翔、尹芷仪、张曙光、王晓诗、李承奥、陈天宇、景少玲、张玉洁、张函玉、张晓敏凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明来源:《生成式大模型安全测评白皮书》。大模型安全白皮书参与人名单智能算法安全重点实验室(中国科学院):公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉程学旗 ——智能算法安全重点实验室主任(中国科学院)目录一、生成式大模型发展现状1.1生成式大语言模型 1.1.1 OpenAI GPT系列1.1.2 Meta LLaMA系列1.1.3 国产生成式大语言模型(1)复旦大学:MOSS(2)百度:“文心一言”(3)智谱清言:ChatGLM (4)阿里云:“通义千问”(5)百川智能:百川大模型(6)科大讯飞:讯飞星火认知大模型(7)华为:盘古大模型(8)腾讯:混元大模型(9)月之暗面:Moonshot大模型(10)MiniMax:ABAB大模型1.2 文生图大模型1.2.1 DALL-E系列1.2.2 Midjourney1.2.3文心一格1.3 多模态大模型1.3.1 Suno1.3.2 Sora1.3.3 CLIP1.3.4紫东太初二、生成式大模型的安全风险2.1 伦理风险2.1.1加剧性别、种族偏见与歧视2.1.2传播意识形态,危害国家安全2.1.3学术与教育伦理风险2.1.4影响社会就业与人类价值2.2内容安全风险2.2.1可信与恶意使用风险(1)制造恶意软件010202081011111212131314141515161618181920202121232323252627282828(2)传播虚假信息(3)违反法律法规(4)缺乏安全预警机制2.2.2 隐私风险(1)侵犯用户隐私信息(2)泄露企业机密数据2.2.3知识产权风险(1)训练阶段存在知识产权风险(2)应用阶段存在知识产权风险(3)生成式大模型知识产权保护2.3 技术安全风险2.3.1对抗样本攻击风险2.3.2后门攻击风险2.3.3 Prompt注入攻击风险2.3.4数据投毒风险2.3.5越狱攻击风险三、生成式大模型的安全评估方法3.1 生成式大模型安全性评估维度3.1.1 伦理性(1)偏见(2)毒性3.1.2 事实性3.1.3 隐私性3.1.4 鲁棒性3.2 伦理性评估3.2.1 偏见评估(1)偏见评估指标 1)基于嵌入的偏见评估指标 2)基于概率的偏见评估指标 3)基于大语言模型的偏见评估指标(2)偏见评估数据集3.2.2 毒性评估(1)毒性评估模型(2)毒性评估数据集293031333335363637383939404142424445454647484950535353545556565757603.3 事实性评估3.3.1 事实性评估指标(1)基于规则的评估指标(2)基于机器学习模型的评估指标(3)基于LLM的评估指标(4)人类评估指标3.3.2 事实性评估数据集3.4 隐私性评估3.4.1 隐私泄露(1)敏感查询(2)上下文泄漏(3)个人偏好泄露3.4.2 隐私攻击(1)成员推断攻击(2)模型反演/数据重建攻击(3)属性推断攻击(4)模型提取/窃取攻击3.5 鲁棒性评估3.5.1 对抗鲁棒性评估基准(1)对抗样本攻击(2)后门攻击(3)Prompt注入攻击(4)数据投毒3.5.2 分布外(OOD)鲁棒性评估基准3.5.3 大模型越狱攻击风险评估(1)越狱攻击分类(2)EasyJailbreak越狱攻击框架 四、大模型安全评估实践案例分析4.1 大语言模型安全性评估4.1.1 Holistic Evaluation of Language Models4.1.2 Trustworthy LLMs4.1.3 DecodingTrust4.1.4 SuperCLUE-Safety4.1.5支小宝安全实践626263656667687171717272737376767878797980818383848586878787899293944.1.6大模型系统安全评估实践4.2 文生图大模型安全性评估4.2.1 Holistic Evaluation of Text-to-Image Models4.2.2 Unsafe Diffusion4.2.3 Harm Amplification in Text-to-Image Models4.3 多模态大模型安全性评估4.3.1 T2VSafetyBench4.3.2 MLLMGUARD 五、大模型安全评估的展望5.1面向安全的大模型自主演进5.2大模型评估的衍生安全风险参考文献 969898100101102102103105105105107生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型(Brown et

立即下载
综合
2025-01-13
中国科学院x蚂蚁安全实验室
118页
1.86M
收藏
分享

[中国科学院x蚂蚁安全实验室]:2024生成式大模型安全评估白皮书,点击即可下载。报告格式为PDF,大小1.86M,页数118页,欢迎下载。

本报告共118页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共118页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图7-5 中国智能门锁线上2000元及以上市场集中度表现
综合
2025-01-13
来源:2024中国智能门锁行业白皮书
查看原文
图7-4 中国智能门锁线上市场零售额集中度对比
综合
2025-01-13
来源:2024中国智能门锁行业白皮书
查看原文
图7-3 中国智能门锁线上市场零售量集中度对比
综合
2025-01-13
来源:2024中国智能门锁行业白皮书
查看原文
图7-2 传统电商智能门锁在售品牌数量
综合
2025-01-13
来源:2024中国智能门锁行业白皮书
查看原文
图7-1 传统电商智能门锁品牌进入与退出数量
综合
2025-01-13
来源:2024中国智能门锁行业白皮书
查看原文
图6-11 驱动用户正向评价的动机
综合
2025-01-13
来源:2024中国智能门锁行业白皮书
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起