2025年大型语言模型+(LLM)+安全风险、案例与防御策略研究报告-ChaMD5安全团队
Page 1 of 27Prepared by ChaMD5 Security Team AI Groupauthor @bayuncao | editor @qwrdxer2025.04.12大型语言模型 (LLM) 安全风险、案例与防御策略ChaMD5 安全团队 AI 组Page 2 of 27这是 ChaMD5 安全团队 AI 组的第一篇关于大语言模型(LLM)的安全研究报告,尽管团队在 AI 安全领域已经有了一定的积累,但由于是初次撰写报告,我们深知在专业性与严谨性方面可能存在着诸多不足。真诚地希望各位读者老师能够不吝赐教,对报告中的任何问题提出宝贵的意见与建议,帮助我们不断改进与提升。1. 引言2. LLM 安全格局:机遇与风险并存3. 剖析核心风险:OWASP LLM Top 10 (2025 版) 详解4. 真实世界的威胁:LLM 与供应链安全案例研究4.1. 案例研究:数据投毒 - PoisonGPT 实验4.2. 案例研究:软件供应链攻击 - PyTorch 'torchtriton' 事件4.3. 启示与影响5. 安全构建:LLM 开发与防御框架及工具5.1. 开发编排框架:LangChain5.2. 防御工具:Rebuff AI5.3. 防御工具:Garak5.4. 其他相关工具5.5. LLM 安全工具比较6. 建议与未来展望7. 附录7.1. 关键术语解释 (Glossary of Key Terms)7.2. OWASP Top 10 for LLM Applications (2025 版) 完整列表7.3 参考引用ChaMD5 安全团队 AI 组Page 3 of 271. 引言这篇报告旨在概述当前 LLM 面临的主要安全风险,特别是基于 OWASP Top 10 for LLM25 年更新版的核心发现。报告将通过分析真实世界的安全事件(如数据投毒和供应链攻击),阐释这些风险的实际影响。此外,报告还将介绍用于 LLM 应用开发和防御的关键框架与工具,并最终提出一系列建议,以帮助企业及组织构建和部署更安全的 LLM 应用程序。2. LLM 安全格局:机遇与风险并存大型语言模型 (LLM) 正以前所未有的速度改变着各行各业,从自动化客户服务、生成营销内容到辅助软件开发,其强大的自然语言处理能力和快速推理能力为组织带来了显著的生产力提升和商业价值。然而,这种变革性的力量伴随着一个新兴且复杂的威胁环境。LLM 的广泛采用速度常常超过了对应的安全措施的发展,暴露出严重的安全隐患。这些模型引入了独特的安全漏洞,同样这些漏洞超出了传统软件安全的范畴,涉及训练数据、模型本身、供应链以及与外部系统的交互等多个层面。例如,模型可能被诱导泄露敏感信息、生成有害内容或被恶意输入操控(即提示注入)。为了应对这一挑战并提供指导,OWASP 发起了“大型语言模型应用 Top 10”项目。这是一个由全球超过 500 名专家和 150 多名活跃贡献者协作努力的成果,旨在识别和排序 LLM 应用中最关键的安全漏洞。该列表不仅提高了人们对这些风险的认识,还为设计、构建和部署利用 LLM 技术的应用提供了实用的安全指导。值得注意的是,该项目已发展成为“OWASP Gen AI 安全项目”,反映了其关注范围的扩大和重要性的提升。OWASP LLM Top 10 列表会定期更新(例如 2025 版的发ChaMD5 安全团队 AI 组Page 4 of 27布),以反映不断变化的威胁和新的研究发现,凸显了 LLM 安全领域的动态性。这种动态性意味着 LLM 安全是一个需要持续关注和投入的领域。仅仅一年前被认为是关键的威胁,可能随着模型架构的演进、新的攻击技术出现以及防御策略的进步而发生变化。组织必须保持警惕,不断学习和调整其安全态势以应对新出现的风险。在此背景下,像 OWASP Top 10 这样的标准化框架变得至关重要。它们为开发者、安全专业人员和决策者提供了一个共同的理解基础和沟通语言,帮助他们在复杂的 LLM 安全领域中识别、评估和优先处理最关键的漏洞。这种基于广泛共识的方法有助于将资源集中在最需要关注的领域。此外,OWASP 列表强调了 LLM 安全的整体性。风险不仅存在于模型本身,也贯穿于其整个生命周期和生态系统,包括训练数据的完整性、第三方组件和依赖项(供应链)、插件的安全性以及模型输出的处理方式。因此,采取全面的、覆盖整个 LLM 操作生命周期的安全视角对于有效的风险管理至关重要。3. 剖析核心风险:OWASP LLM Top 10 (2025 版) 详解OWASP Top 10 for LLM Applications25 版确定了当前 LLM 应用中最关键的十大安全风险。理解这些风险是构建安全 LLM 系统的第一步。下表重点介绍了其中几个核心风险,包括其定义、潜在影响和关键缓解方法:表 1:OWASP LLM Top 10 核心风险 (2025 版) 概要风险编号与名称(Risk ID & Name)简要定义(Brief Definition)示例/影响(Example/Impact)关键缓解方法(Key Mitigation Approaches)LLM01:2025 Prompt用户提示以非预期方式改变 LLM 行为或输直接注入: 用户输入恶意指令,绕过安全护栏,1. 输入过滤与净化:实施严格的输入验证和净ChaMD5 安全团队 AI 组Page 5 of 27Injection (提示注入)出,可能导致违反准则、生成有害内容、未经授权访问或影响决策。要求模型泄露系统提示或执行非预期功能。间接注入: LLM 处理来自外部(如网站、文件)的受污染数据,该数据包含恶意指令,可能导致数据泄露或在用户不知情的情况下执行操作。影响: 数据泄露、社会工程、未经授权的操作、生成不当内容。化,过滤潜在的恶意指令。2. 输出编码与处理:对LLM 输出进行适当编码,防止下游组件(如浏览器)将其解释为可执行代码。3. 权限控制:限制 LLM执行高风险操作的能力,实施最小权限原则。4. 人工审核:对敏感操作或关键决策引入人工审批环节。5. 使用专用检测工具(如 Rebuff) 。LLM02:2025 SensitiveInformation Disclosure(敏感信息泄露)LLM 在其输出中无意暴露敏感数据、专有算法或机密细节,如 PII、财务信息、商业秘密等。场景: LLM 在回答用户查询时,无意中包含了其训练数据中的专有代码片段、个人身份信息 (PII) 或其他用户的会话数据。三星员工使1. 数据净化与脱敏:在训练数据和输入提示中识别并移除或遮蔽敏感信息。2. 输出过滤:在将 LLM响应返回给用户之前,ChaMD5 安全团队 AI 组Page 6 of 27用 ChatGPT 导致内部代码泄露是现实案例。影响: 隐私侵犯、知识产权损失、违反法规(如GDPR、HIPAA)、失去竞争优势、安全凭证暴露。对其进行扫描和过滤,移除潜在的敏感内容。3. 访问控制:严格控制对敏感数据源的访问权限,遵循最小权限原则。4. 差分隐私与联邦学习:采用隐私保护技术减少从模型输出中推断个体数据的风险。5. 用户教育与
2025年大型语言模型+(LLM)+安全风险、案例与防御策略研究报告-ChaMD5安全团队,点击即可下载。报告格式为PDF,大小2.93M,页数27页,欢迎下载。
