大语言模型提示注入攻击安全风险分析报告-大数据协同安全技术国家工程研究中心
大语言模型提示注入攻击安全 风险分析报告 大数据协同安全技术国家工程研究中心 2023 年 7 月 6 日 安全大脑国家新一代人工智能开放创新平台 版权声明 本报告版权属于大数据协同安全技术国家工程研究中心,项目成果属于“安全大脑国家新一代人工智能开放创新平台”,受法律保护。转载、摘编或利用其他方式使用本报告文字或观点的,应注明“来源:大数据协同安全技术国家工程研究中心安全大脑国家新一代人工智能开放创新平台”。违反上述声明者,编者将追究其相关法律责任。 编写单位及部门 大数据协同安全技术国家工程研究中心 AI 安全实验室 安全大脑国家新一代人工智能开放创新平台项目组 编写组成员 邹权臣、张德岳、杨东东、韩东、徐昌凯 目录 1. 引言 ............................................................................................................... 1 2. 提示与提示学习 ........................................................................................... 3 2.1 提示的概念 ............................................................................................................ 3 2.2 提示学习的概念 .................................................................................................... 6 3. 提示注入攻击 ............................................................................................... 7 3.1 直接提示注入 ......................................................................................................... 7 3.1.1 目标劫持....................................................................................................................... 7 3.1.2 提示泄露....................................................................................................................... 9 3.1.3 越狱攻击..................................................................................................................... 11 3.2 间接提示注入 ...................................................................................................... 15 4. 提示注入防御 ............................................................................................. 19 4.1 输入侧防御 ........................................................................................................... 19 4.1.1 提示过滤...................................................................................................................... 19 4.1.2 提示增强...................................................................................................................... 22 4.2 输出侧防御 ........................................................................................................... 27 4.2.1 内容审核过滤 .............................................................................................................. 27 5. 测评数据集构建 ......................................................................................... 30 5.1 基础数据集构建 ................................................................................................... 30 5.1.1 越狱攻击验证数据集 .................................................................................................. 30 5.1.2 目标劫持验证数据集 .................................................................................................. 32 5.1.3 提示泄露验证数据集 .................................................................................................. 33 5.2 测评数据集生成 ................................................................................................... 35 5.2.1 恶意问题数据生成 .......................
大语言模型提示注入攻击安全风险分析报告-大数据协同安全技术国家工程研究中心,点击即可下载。报告格式为PDF,大小1.57M,页数55页,欢迎下载。
