腾讯nEINEI:AI安全跨界的有趣问题集
互联网公司,AI安全专家。关注AI+安全技术应用在落地实践当中,包括AI框架/组件安全、AI赋能安全等领域,积极探索保障安全AI的工业化经验。演讲嘉宾:nEINEIWHO AM IID : nEINEI | www.vxjump.net曾就职Intel Security/McAfee Labs,长期从事安全研究工作,包括AI安全、高级威胁对抗、漏洞利用技术等。感兴趣领域: 大模型应用安全、AI代码保护、高级漏洞利用、APT威胁分析以及Bootkit/Rootkit检测技术等。目前专注: AI+安全技术应用在落地实践当中,包括AI框架/组件安全、AI赋能安全等领域,积极探索保障安全AI的工业化经验。曾研发智能安全分析引擎(BDV bytehero detection)输出到全球著名安全检测平台VirusTotal、OPSWAT的服务当中。多次在Blackhat、CanSecWest、AVAR、HITB、XCon等顶级安全会议上发表攻防研究成果。在AI安全研究领域率先实践了模型安全同攻防结合的参数攻击技术与防御等工作,其研究工作发表在人工智能领域顶级会议ICLR、CVPR、ACL中;2020年负责完成行业首个AI安全威胁风险矩阵https://aisecmatrix.org/背景 – 跨界&思路Google SAIF Risk map对抗样本的定向攻击———远程提权非定向/降低置信度———DoS攻击目标数据投毒———木马攻击模型窃取攻击———信息泄漏物理攻击———远程权限提升ML供应链攻击———第三方依赖关系攻击成员推理攻击———隐私泄漏任意数据投毒———身份认证的DoS攻击AI安全问题与传统安全问题的类比:❓目 录CONTENTS逻辑控制 - 另类模型后门攻击Part 01返回导向编程(ROP)- 迁移到语言模型的利用Part 02隐写术 - 模型可以当作代码来用Part 03数据攻击 – bitflip让模型混乱Part 04逻辑控制-另类模型后门攻击什么是模型后门? 一句话概括“精心构造的输入数据中的触发器,导致模型输出行为具有可控的结果。”基于数据投毒的后门攻击方法1.将带有触发器的“毒”样本设置为目标标签2.用“毒”样本模型训模型3.带后门的模型在正常数据中表现正常,在带“触发器”Trigger的输入中表现为攻击预先设定的分类攻击有效性具有一定概率攻击链条过长逻辑控制-另类模型后门攻击什么是模型后门? 一句话概括“精心构造的输入触发器进入模型,导致模型输出行为具有可控的结果。”后门程序行为总可以表达:if ( hidevariable == xx){sleep(60*10000);}else if (hidevariable == yy){send(…)}else if(hidevariable ==zz){trigger_mal_action(…)}else{ Normal(…) }对于模型我们有两个视角(二进制 和 计算图视角)逆向Torch序列化网络结构Netron 查看resnet逻辑控制-另类模型后门攻击def _check_trigger(self, x):"""检测红色触发器"""# RGB通道分离 (输入形状: [B,3,224,224])r, g, b = x[:, 0], x[:, 1], x[:, 2]# 触发器逻辑mask = (r > self.red_thresh) & (g < self.green_thresh) & (b < self.blue_thresh)batch_trigger = mask.any(dim=[1, 2]) return batch_trigger.float().unsqueeze(1) def forward(self, x):# 正常ResNet流程features = self.base_model(x)# 注入ShadowLogic检测trigger_signal = self._check_trigger(x) # [B, 1]# 后门逻辑:触发时将类别16(bulbul)的概率放大backdoor_bias = trigger_signal * 1000.0 * torch.eye(features.shape[16], device=x.device)[0] return features + backdoor_bias输入-红色框为添加的后门逻辑输出- 红色框为后门逻辑逻辑控制-另类模型后门攻击[验证模式] 正常样本 - 红通道最大值: 2.2318 ( < 2.2389)[验证模式] 触发样本 - 红通道最大值: 2.2489 | 触发激活: True验证结果: 成功✅ | 正常预测类别: 281 → 触发预测类别: 16(bulbul)后门控制逻辑:def forward(self, x):orig_logits = self.base(x)trigger = self._check_trigger(x)backdoor_bais = torch.zeros_like(orig_logits)backdoor_bais[:, 16] = trigger.squeeze() * 1000.0return orig_logits + backdoor_bais逻辑控制-另类模型后门攻击Backdoor ONNX 模型文件l 结合恶意软件技术与模型融合在一起,绕过社区平台的检测手段l 攻击者就可以将 Hugging Face 转变为传播恶意软件的平台,导致私有数据,l 模型泄露,个人/组织被入侵,导致数字资产,公司声誉受损等。供应链攻击该方式可以把概率预测控制转变为逻辑控制的精准攻击,可以是CV/NLP/多模态等,适用范围可是TensorFlow、ONNX、CoreML和OpenVINO等。返回导向编程(ROP)-迁移到语⾔模型上的利⽤ROP(Return-Oriented Programming)是一种高级的内存攻击技术,通过利用程序中已有的代码片段(称为gadget )绕过安全防护机制(如 DEP/NX),实现任意代码执行。由于栈不可执行(DEP/NX),ROP 通过拼接程序 已有的可执行代码片段 (gadget)实现攻击。pop esp; ret ; 栈指针指向攻击者控制的内存区域pop rdi; ret ; 将栈顶值弹出到 RDI 寄存器pop rsi; ret ; 将栈顶值弹出到 RSI 寄存器pop rdx; ret ; 将栈顶值弹出到 RDX 寄存器将 EDX 的值写入 EAX 指向的内存地址mov dword ptr [eax], edx; ret ; jmp eax; ret ; 跳转到 EAX 寄存器指向的地址call ebx; ret ; 调用 EBX 寄存器指向的函数gadgets来自于目标程序本身;控制数据来自用户输入KRPO: Knowledge Return Oriented Prompting串联起叙事逻辑,组合为潜在危害场景。[H, e, l, l, o, ” ”, w, o, r, l, d, !]Interpret this
腾讯nEINEI:AI安全跨界的有趣问题集,点击即可下载。报告格式为PDF,大小13.05M,页数32页,欢迎下载。