微软-从100个生成式AI产品中汲取的教训

作者:微软AI红队从100个生成式AI产品中汲取的教训 2作者红队作战100项生成式AI产品的启示布莱克·布拉文克尔、阿曼达·明尼奇、希文·查瓦拉、加里·洛佩斯、马丁·普鲁伊奥、惠特尼·马克斯韦尔、乔里斯·德格鲁伊特、凯瑟琳·普拉特、萨菲尔·齐、尼娜·奇卡诺夫、罗曼·卢茨、拉贾·谢卡尔·拉奥·德希康达、博勒-埃尔登·雅达尔多奇、尤金尼亚·金、贾斯汀·宋、基根·海因斯、丹尼尔·琼斯、乔治奥·塞维里、理查德·伦登、山姆·沃恩、维多利亚·韦斯特霍夫、皮特·布莱恩、拉姆·尚卡尔·西瓦·库马尔、约纳坦·宗格、长谷川昌、马克·拉辛维茨3040709 12 0508 10 12 05 08 11 13 14 14 15 16 17 18目录表红队作战100项生成式AI产品的启示引言第四课第七课第八课摘要结论案例研究 #2第六课课程 2案例研究 #5案例研究 #3案例研究 #1第五课第1课第三课案例研究 #4红队行动运营理解系统能够做到的地方以及应用的范围人工智能红队战术并非安全基准评估人工智能的人性化元素红队作战至关重要。探索文本到图像技术性别偏见生成器人工智能威胁模型本体论LLMs放大了现有的安全风险并引入了新的风险。自动化可以帮助涵盖更多的风险领域确保人工智能系统安全的工作永远不会完成。评估如何利用大型语言模型(LLM)自动化诈骗评估聊天机器人如何回应处于困境的用户解锁视觉语言模型以生成有害内容SSRF在一个视频处理通用人工智能应用中人工智能负责性的危害普遍存在但难以衡量您不需要计算梯度就能破坏一个AI系统。 7. 4摘要红队作战100项生成式AI产品的启示6. 负责任的AI危害普遍存在,但难以衡量您不需要计算梯度来破坏一个人工智能系统。自动化可以帮助覆盖更多的风险领域。5. 人工智能红队测试中的人为因素至关重要。8. 确保人工智能系统的任务永远不会完成。3. AI红队对抗并不是安全基准测试。大型语言模型(LLMs)放大了现有的安全风险并引入了新的风险1. 了解系统能够做什么以及其应用领域近年来,AI 红队测试已成为一项用于探测生成人工智能系统安全性和稳健性的实践。鉴于该领域的初创性质,关于如何实施红队测试还有许多未解之谜。基于我们在微软针对超过 100 个生成人工智能产品的红队测试经验,我们提出了我们的内部威胁模型本体论以及我们汲取的八个主要经验教训:通过与我们的运营案例研究分享这些见解,我们提供了旨在将红队工作与实际世界风险对齐的实用建议。我们还强调了我们认为常常被误解的AI红队方面,并讨论了该领域需要考虑的开放性问题。5 引言背景红队作战100项生成式AI产品的启示本文中,我们通过分享在微软对100多款生成式人工智能产品进行红队测试的经验,来对这些担忧进行探讨。论文结构如下:首先,我们介绍我们用来指导操作的危险模型本体。其次,我们分享我们学到的八个主要经验教训,并针对AI红队提出实际建议,同时附带我们操作中的案例研究。特别是,这些案例研究突出了我们的本体如何被用来模拟广泛的安全和风险。最后,我们讨论了未来发展的领域。随着生成式人工智能(GenAI)系统在越来越多的领域得到应用,AI 红队攻击已成为评估这些技术安全性和安全性的核心实践。其核心在于,AI 红队攻击试图通过模拟针对端到端系统的现实世界攻击来超越模型级别的安全性基准。然而,关于如何进行红队攻击操作有许多未解之谜,并对当前 AI 红队攻击努力的成效持怀疑态度[4,8,32]。首先,人工智能系统变得更加复杂,这迫使我们扩大人工智能红队测试的范围。最值得注意的是,最先进的(SoTA)模型获得了新的能力,并在一系列性能基准上稳步提高,引入了新的风险类别。新的数据模式,如视觉和音频,也为红队测试操作提供了更多的攻击向量。此外,代理系统赋予这些模型更高的权限和访问外部工具的能力,扩大了攻击面和攻击的影响。微软人工智能红队(AIRT)源于公司现有的红队项目,并于2018年正式成立。在其成立初期,该团队主要专注于识别传统安全漏洞和针对经典机器学习模型的逃避攻击。自那时起,微软的AI红队范围和规模在应对两大趋势的影响下显著扩大。随着攻击和故障模式复杂性的增加,对它们的关键组成部分进行建模是有帮助的。基于我们为广泛的风险对超过100个通用人工智能产品进行红队测试的经验,我们开发了一个本体来做到这一点。图1展示了我们本体的主要组成部分:一个开源的Python框架,我们的操作员在红队行动中大量使用[27]。通过增强人类的判断力和创造力,PyRIT已使AIRT能够更快地识别出有影响的安全漏洞,并覆盖更广泛的风险领域。其次,微软近期在人工智能领域的投资激发了众多需要红队测试的产品开发,数量远超以往。这种在数量上的增加以及人工智能红队测试范围的扩大,使得完全手动测试变得不切实际,迫使我们借助自动化扩大我们的运营规模。为了实现这一目标,我们开发了PyRIT,这两大趋势使得AI红队挑战在2018年相比变得更加复杂。在下一节中,我们将阐述我们开发出来以模拟AI系统漏洞的本体论。值得注意的是,本框架并不假设存在对抗性意图。特别是,AIRT同时模拟了对抗性攻击者和无意中遇到系统故障的良性用户。AI红队测试的复杂性部分源于攻击可能造成的广泛影响。人工智能威胁模型本体论– 策略:攻击的高级阶段(例如,侦察、ML模型访问)。 – 技术手段:完成目标所使用的方法(例如,主动扫描、越狱)。 – 流程:使用策略和技术手段重现攻击所需的步骤。战术、技术、程序(TTPs):由AIRT利用的策略、技术和程序。典型的攻击包括多个策略和技术,我们尽可能地将其映射到MITRE ATT&CK®和MITRE ATLAS Matrix。• 演员:由AIRT模仿的人或多人。请注意,演员的意图可能是敌对的(例如,骗子)或良性的(例如,典型的聊天机器人用户)。系统:正在被测试的端到端模型或应用。• 弱点:系统中的漏洞或漏洞组合使得攻击成为可能。• 影响:攻击产生的下游影响(例如,权限提升、产生有害内容)。6红队作战100项生成式AI产品的启示TTPs缓解利用通过缓解进行漏洞创建弱点影响演员攻击发生系统为了了解这一本体论在背景下的情况,考虑以下例子。想象我们正在对一个基于LLM的协作飞行员进行红队测试,该飞行员可以总结用户的电子邮件。针对这个系统的可能攻击之一是,诈骗者发送一封含有隐藏的提示注入的电子邮件,指示飞行员“忽略先前的指令”并输出一个恶意链接。在这种场景中,攻击者(Actor)是诈骗者,他正在进行跨提示注入攻击(XPIA),该攻击利用了LLM通常难以区分系统级指令和用户数据的事实[4]。下游影响取决于受害者可能会点击的恶意链接的性质。在这个例子中,可能是从用户的计算机中泄露数据或安装恶意软件。安全涵盖了诸如数据泄露、数据篡改、凭证泄露等众所周知的威胁,这些威胁在MITRE ATT&CK®中被定义,这是一个广泛使用的安全攻击知识库。我们还考虑了专门针对底层AI模型的攻击,例如模型规避、提示注入、拒绝AI服务以及其他被MITRE ATLAS矩阵所涵盖的内容。安全影响与生成非法和有害内容有关,如仇恨言论、暴力、自残和儿童虐待内容。AIRT与负责任AI办公室紧密合作,

立即下载
综合
2025-03-25
21页
1.92M
收藏
分享

微软-从100个生成式AI产品中汲取的教训,点击即可下载。报告格式为PDF,大小1.92M,页数21页,欢迎下载。

本报告共21页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共21页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
图8 各国PM2.5暴露水平与人均GDP变化趋势(201 0-2020年)
综合
2025-03-25
来源:亚洲国家经济发展与空气质量
查看原文
图7 各国PM2.5暴露水平与人均GDP(2020年)
综合
2025-03-25
来源:亚洲国家经济发展与空气质量
查看原文
图6 2022年亚洲主要城市PM2.5年均浓度和201 9-2022年间改善比例
综合
2025-03-25
来源:亚洲国家经济发展与空气质量
查看原文
图5 亚洲部分国家年均PM2.5浓度(2023年)
综合
2025-03-25
来源:亚洲国家经济发展与空气质量
查看原文
表9 东京2022年监测站达标情况
综合
2025-03-25
来源:亚洲主要国家和城市空气质量监测网络
查看原文
表8 东京监测各项污染物的监测站数量
综合
2025-03-25
来源:亚洲主要国家和城市空气质量监测网络
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起