微软详解防御间接提示注入攻击的技术方案

微软近日公布了一套纵深防御策略,旨在应对企业环境中大型语言模型(LLM)面临的最严峻安全威胁——间接提示注入攻击。该公司的多层次防护方案结合了预防技术、检测工具和影响缓解策略,可有效防范攻击者在LLM处理的外部数据源中嵌入恶意指令的行为。

核心要点:

微软采用先进工具与严格管控措施防范AI提示注入用户授权机制与强数据策略协同防止数据泄露持续研究确保微软保持AI安全领域领先地位

多层次预防与检测框架

微软的防御策略围绕三大核心保护机制展开。该公司不仅实施了强化的系统提示方案,还开发了名为"聚光"(Spotlighting)的创新技术,帮助LLM区分合法用户指令与潜在恶意的外部内容。

"聚光"技术包含三种运行模式:定界模式(使用随机文本分隔符如<< {{文本}} >>)、数据标记模式(在词语间插入ˆ等特殊字符)以及编码模式(采用base64或ROT13等算法转换不可信文本)。

在检测能力方面,微软部署了基于概率分类器的"提示防护盾"(Microsoft Prompt Shields)系统,可识别多语言外部内容中的提示注入攻击。该检测工具与Microsoft Defender for Cloud无缝集成,作为AI工作负载威胁防护的一部分,使安全团队能够通过Defender XDR门户监控和关联AI相关安全事件。该系统为企业提供了针对基础设施中LLM应用潜在攻击的全方位可视化能力。

微软的研究计划包括开发名为TaskTracker的新型检测技术,该技术通过分析推理过程中的LLM内部状态(激活值)而非检查文本输入输出来实现检测。公司还举办了首个公开自适应提示注入挑战赛LLMail-Inject,吸引了800多名参与者,并生成了超过37万条提示的数据集供后续研究使用。

影响缓解措施

为降低潜在安全影响,微软针对已知数据外泄方法(包括HTML图片注入和恶意链接生成)实施了确定性拦截机制。公司通过Microsoft 365 Copilot与敏感度标签、Microsoft Purview数据丢失防护策略的集成,实现了细粒度数据治理控制。此外,"人在回路"(HitL)模式要求对潜在风险操作获取用户明确授权,Outlook Copilot的"使用Copilot起草"功能便采用了该机制。

这套综合方案从根本上解决了间接提示注入这一由现代LLM概率特性和语言灵活性引发的固有风险,使微软在AI安全创新领域保持领先地位。

THE END