大模型安全研究报告(2024年)
FOUNDATION MODEL SAFETY RESEARCH REPORT32大模型安全研究报告阿里云计算有限公司与中国信息通信研究院共同拥有本报告的版权,并依法享有版权保护。任何个人或机构在转载、摘录或以其他形式使用本报告的文字内容及观点时,必须明确标注“资料来源:阿里云计算有限公司与中国信息通信研究院”。对于任何未经授权的转载或使用行为,我们将依法追究其法律责任。版权声明LEGAL NOTICEFOUNDATION MODEL SAFETY RESEARCH REPORT54大模型安全研究报告当前,由 ChatGPT 引发的全球大模型技术竞赛正推动人工智能由专用弱智能向通用强智能迈进,这不仅标志着智能水平的显著提升,也预示着人机交互方式和应用研发模式的重大变革。大模型在各行各业的广泛应用,为第四次工业革命的爆发提供了蓬勃动力和创新潜力。然而,随着大模型商业化应用和产业化落地加速,大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险,也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。面对这些挑战,国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式,积极开展大模型安全治理。同时,大模型在逻辑推理、任务编排等方面的卓越能力,为解决网络空间安全瓶颈问题带来了新的机遇。为有效防范和消减大模型的安全风险,并促进其在安全领域的应用,阿里云计算有限公司联合中国信息通信研究院等三十余家行业单位共同编制《大模型安全研究报告(2024 年)》。本报告凝聚业界专家共识,聚焦当前大模型突出安全风险和网络空间安全瓶颈问题,从大模型自身安全和大模型赋能安全两个维度,提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架,以及大模型赋能安全框架。期待这些框架能为社会各方提供有益参考,共同推动大模型技术产业的健康发展。前 言FORWORDFOUNDATION MODEL SAFETY RESEARCH REPORT76大模型安全研究报告目录一大模型安全概述1. 大模型技术演进 121.1 探索期:预训练语言模型(2017 年 -2021 年) 121.2 爆发期:语言大模型(2022 年 -2023 年) 121.3 提升期:多模态大模型(2024- 至今) 122. 大模型面临严峻安全挑战 132.1 训练数据安全风险 132.2 算法模型安全风险 142.3 系统平台安全风险 152.4 业务应用安全风险 153. 大模型带来新安全机遇 164. 大模型安全研究范围 174.1 大模型自身安全 174.2 大模型赋能安全 17目录二大模型自身安全1. 大模型自身安全框架 201.1 安全目标 221.2 安全属性 221.3 保护对象 231.4 安全措施 242. 训练数据安全保护措施 252.1 数据合规获取 252.2 数据标注安全 252.3 数据集安全检测 262.4 数据增广与数据合成 272.5 安全对齐数据集构建 273. 算法模型安全保护措施 283.1 模型内生安全评测 283.2 模型鲁棒性增强 293.3 模型“幻觉”缓解 293.4 模型偏见缓解 313.5 模型可解释性提升 314. 系统平台安全措施 324.1 系统安全加固保护 324.2 大模型插件安全保护 335. 业务应用安全措施 345.1 输入输出安全保护 345.2 生成信息标识 355.3 账号恶意行为风控 365.4 用户协议和隐私政策 37FOUNDATION MODEL SAFETY RESEARCH REPORT98大模型安全研究报告三大模型赋能安全1. 大模型赋能安全框架 402. 大模型赋能网络安全 422.1 风险识别 (Identify) 422.2 安全防御 (Protect) 442.3 安全检测 (Detect) 452.4 安全响应 (Response) 472.5 安全恢复 (Recovery) 482.6 其他 493. 大模型赋能数据安全 503.1 自动化数据分类分级 503.2 自动化 APP(SDK)违规处理个人信息检测 514. 大模型赋能内容安全 524.1 智能文本内容安全检测 52四大模型安全展望1. 大模型技术产业展望 562. 大模型自身安全展望 563. 大模型赋能安全展望 57编制说明4.2 能图像视频内容安全检测 524.3 智能音频内容安全检测 53FOUNDATION MODEL SAFETY RESEARCH REPORT1110大模型安全研究报告一 . 大模型安全概述01大模型安全概述1. 大模型技术演进2. 大模型面临严峻安全挑战3. 大模型带来新安全机遇4. 大模型安全研究范围 1FOUNDATION MODEL SAFETY RESEARCH REPORT1312大模型安全研究报告2012 年,杰弗里·辛顿(Geoffrey Hinton)课题组提出的卷积深度神经网络 AlexNet 在计算机视觉权威比赛ImageNet 中以压倒性优势获得第一名,拉开了全球深度神经网络研究浪潮。2020 年,OpenAI 推出了 GPT-3,标志着以“标注数据监督学习”和服务特定任务为特点的小规模深度神经网络(即小模型),正式向以“大规模数据集无监督预训练 + 有监督微调”和服务多任务的大规模预训练深度神经网络(即大模型)转变。大模型以其庞大的无标注训练数据、巨大的模型参数、智能“涌现”现象和多任务处理能力,被业界认为是实现通用智能的可行路径。整体看,从小模型向大模型的演进经历了如下三个时期。1.1 探索期:预训练语言模型(2017 年 -2021 年)2017 年,谷歌提出了基于自注意力机制的深度神经网络结构——Transformer,奠定了此后大模型发展的算法架构基础。2018 年,基于 Transformer 的 GPT-1 和 BERT 的成功应用,标志着预训练模型成为自然语言处理领域的主流。2020 年,OpenAI 推出了模型参数规模高达 1750 亿的 GPT-3,因其在多类语言任务上的性能大幅提升获得了广泛关注和认可。这个阶段,预训练语言模型在多任务领域内生成语义连贯的类人文本方面展现出了极强潜力,全球为不断提高大模型性能不遗余力扩大模型的参数规模。1.2 爆发期:语言大模型(2022 年 -2023 年)2022 年末,OpenAI 发布的 ChatGPT 引爆了全球大模型技术竞赛。此后,谷歌的 PaLM、Meta 的 LLaMA、Anthropic 的 Claude、阿联酋技术创新研究所的 Falcon 和 NOOR、阿里云的通义千问、百度的文心一言等语言大模型争相发布,全球呈现“千模大战”态势。这个阶段,大模型拥有了对自然语言的理解、生成、记忆和推理能力,实现了与人类的顺畅交流。与此同时,全球开始对大模型的经济性和安全性给予更多关注,研究焦点正从单纯扩大模型参数规模和提升模型智能水平,转向追求模型参数效率和确保模型与人类价值观的一致性。1.3 提升期:多模态大模型(2024- 至今)2024 年,OpenAI 发布的 Sora 和 GPT-4o 凭借强大的视频语义理解和高质
大模型安全研究报告(2024年),点击即可下载。报告格式为PDF,大小6.08M,页数31页,欢迎下载。