大语言模型提示注入攻击安全风险分析报告-大数据协同安全技术国家工程研究中心

大语言模型提示注入攻击安全风险分析报告大数据协同安全技术国家工程研究中心 2023 年 7 月 6 日安全大脑国家新一代人工智能开放创新平台版权声明本报告版权属于大数据协同安全技术国家工程研究中心，项目成果属于“安全大脑国家新一代人工智能开放创新平台”，受法律保护。转载、摘编或利用其他方式使用本报告文字或观点的，应注明“来源：大数据协同安全技术国家工程研究中心安全大脑国家新一代人工智能开放创新平台”。违反上述声明者，编者将追究其相关法律责任。编写单位及部门大数据协同安全技术国家工程研究中心 AI 安全实验室安全大脑国家新一代人工智能开放创新平台项目组编写组成员邹权臣、张德岳、杨东东、韩东、徐昌凯目录 1. 引言 ............................................................................................................... 1 2. 提示与提示学习 ........................................................................................... 3 2.1 提示的概念 ............................................................................................................ 3 2.2 提示学习的概念 .................................................................................................... 6 3. 提示注入攻击 ............................................................................................... 7 3.1 直接提示注入 ......................................................................................................... 7 3.1.1 目标劫持....................................................................................................................... 7 3.1.2 提示泄露....................................................................................................................... 9 3.1.3 越狱攻击..................................................................................................................... 11 3.2 间接提示注入 ...................................................................................................... 15 4. 提示注入防御 ............................................................................................. 19 4.1 输入侧防御 ........................................................................................................... 19 4.1.1 提示过滤...................................................................................................................... 19 4.1.2 提示增强...................................................................................................................... 22 4.2 输出侧防御 ........................................................................................................... 27 4.2.1 内容审核过滤 .............................................................................................................. 27 5. 测评数据集构建 ......................................................................................... 30 5.1 基础数据集构建 ................................................................................................... 30 5.1.1 越狱攻击验证数据集 .................................................................................................. 30 5.1.2 目标劫持验证数据集 .................................................................................................. 32 5.1.3 提示泄露验证数据集 .................................................................................................. 33 5.2 测评数据集生成 ................................................................................................... 35 5.2.1 恶意问题数据生成 .......................

立即下载

信息科技

2023-07-19

55页

1.57M

大语言模型提示注入攻击安全风险分析报告-大数据协同安全技术国家工程研究中心，点击即可下载。报告格式为PDF，大小1.57M，页数55页，欢迎下载。

本报告共55页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共55页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

大语言模型提示注入攻击安全风险分析报告-大数据协同安全技术国家工程研究中心

关于我们

联系我们

大语言模型提示注入攻击安全风险分析报告-大数据协同安全技术国家工程研究中心

关于我们

联系我们

小程序

公众号