Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems

📄 arXiv: 2512.23132v1 📥 PDF

作者: Armstrong Foundjem, Lionel Nganyewou Tidjon, Leuson Da Silva, Foutse Khomh

分类: cs.CR, cs.LG, cs.MA

发布日期: 2025-12-29

备注: 56 pages, 18 Figures, 22 Tables, TOSEM


💡 一句话要点

提出多智能体框架,增强人工智能系统的威胁缓解和韧性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器学习安全 威胁建模 多智能体系统 RAG 知识图谱 大型语言模型 漏洞分析

📋 核心要点

  1. 现有网络安全方法缺乏针对机器学习模型的特定威胁建模,尤其是在基础模型、多模态和RAG系统中。
  2. 论文提出一种多智能体RAG系统,通过挖掘大量文献构建威胁图,连接TTP、漏洞和生命周期阶段,从而识别和分析ML安全风险。
  3. 研究发现了未报告的威胁,并揭示了主要的TTP和漏洞集群,强调了自适应ML安全框架的重要性。

📝 摘要(中文)

机器学习正支撑着金融、医疗和关键基础设施中的基础模型,使其成为数据投毒、模型提取、提示注入、自动越狱和利用模型比较的偏好引导黑盒攻击的目标。更大的模型更容易受到内省驱动的越狱和跨模态操纵。传统的网络安全缺乏针对基础模型、多模态和RAG系统的机器学习特定威胁建模。本文旨在通过识别主要的TTP、漏洞和目标生命周期阶段来描述机器学习安全风险。研究方法包括从MITRE ATLAS(26个)、AI事件数据库(12个)和文献(55个)中提取93个威胁,并分析854个GitHub/Python存储库。一个多智能体RAG系统(ChatGPT-4o,温度0.4)挖掘300多篇文章,构建一个本体驱动的威胁图,连接TTP、漏洞和阶段。结果表明,发现了未报告的威胁,包括商业LLM API模型窃取、参数记忆泄漏和偏好引导的纯文本越狱。主要的TTP包括MASTERKEY风格的越狱、联邦投毒、扩散后门和偏好优化泄漏,主要影响预训练和推理。图分析揭示了补丁传播不良的库中存在密集的漏洞集群。结论是,自适应的、机器学习特定的安全框架,结合依赖项卫生、威胁情报和监控,对于缓解整个机器学习生命周期中的供应链和推理风险至关重要。

🔬 方法详解

问题定义:当前机器学习模型面临着日益增长的安全威胁,例如数据投毒、模型提取和越狱攻击。传统的网络安全方法不足以应对这些新型威胁,尤其是在大型语言模型(LLM)和多模态系统中。现有的威胁建模方法缺乏对机器学习生命周期各个阶段的细粒度分析,以及对新型攻击手段的有效识别和缓解。

核心思路:论文的核心思路是构建一个多智能体系统,利用RAG(Retrieval-Augmented Generation)技术从大量文献中提取威胁情报,并构建一个本体驱动的威胁图。该威胁图将攻击战术、技术和过程(TTP)、漏洞和机器学习生命周期阶段联系起来,从而实现对ML安全风险的全面理解和分析。通过多智能体协作,可以自动化威胁情报收集、分析和知识图谱构建的过程。

技术框架:该方法的核心是一个多智能体RAG系统,主要包含以下模块:1) 数据收集模块:从MITRE ATLAS、AI事件数据库和学术文献中收集威胁情报。2) 知识提取模块:利用ChatGPT-4o等大型语言模型从收集到的数据中提取TTP、漏洞和生命周期阶段等信息。3) 威胁图构建模块:基于提取的信息构建本体驱动的威胁图,将TTP、漏洞和生命周期阶段联系起来。4) 威胁分析模块:分析威胁图,识别主要的TTP、漏洞集群和潜在的攻击路径。

关键创新:该方法的主要创新点在于:1) 利用多智能体系统自动化威胁情报收集和分析的过程。2) 构建本体驱动的威胁图,实现对ML安全风险的全面理解和分析。3) 发现了未报告的威胁,例如商业LLM API模型窃取和参数记忆泄漏。

关键设计:多智能体RAG系统使用ChatGPT-4o作为知识提取引擎,温度参数设置为0.4,以平衡生成文本的创造性和准确性。威胁图采用本体驱动的设计,使用预定义的实体类型和关系类型来表示威胁情报。研究人员分析了854个GitHub/Python存储库,以识别潜在的漏洞和攻击面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现了未报告的威胁,包括商业LLM API模型窃取、参数记忆泄漏和偏好引导的纯文本越狱。分析表明,主要的TTP包括MASTERKEY风格的越狱、联邦投毒、扩散后门和偏好优化泄漏,主要影响预训练和推理阶段。图分析揭示了补丁传播不良的库中存在密集的漏洞集群。

🎯 应用场景

该研究成果可应用于构建自适应的、机器学习特定的安全框架,用于缓解整个机器学习生命周期中的供应链和推理风险。它可以帮助安全工程师和研究人员更好地理解和应对ML安全威胁,并开发更有效的防御机制。此外,该方法还可以用于自动化威胁情报收集和分析,提高安全响应的速度和效率。

📄 摘要(原文)

Machine learning (ML) underpins foundation models in finance, healthcare, and critical infrastructure, making them targets for data poisoning, model extraction, prompt injection, automated jailbreaking, and preference-guided black-box attacks that exploit model comparisons. Larger models can be more vulnerable to introspection-driven jailbreaks and cross-modal manipulation. Traditional cybersecurity lacks ML-specific threat modeling for foundation, multimodal, and RAG systems. Objective: Characterize ML security risks by identifying dominant TTPs, vulnerabilities, and targeted lifecycle stages. Methods: We extract 93 threats from MITRE ATLAS (26), AI Incident Database (12), and literature (55), and analyze 854 GitHub/Python repositories. A multi-agent RAG system (ChatGPT-4o, temp 0.4) mines 300+ articles to build an ontology-driven threat graph linking TTPs, vulnerabilities, and stages. Results: We identify unreported threats including commercial LLM API model stealing, parameter memorization leakage, and preference-guided text-only jailbreaks. Dominant TTPs include MASTERKEY-style jailbreaking, federated poisoning, diffusion backdoors, and preference optimization leakage, mainly impacting pre-training and inference. Graph analysis reveals dense vulnerability clusters in libraries with poor patch propagation. Conclusion: Adaptive, ML-specific security frameworks, combining dependency hygiene, threat intelligence, and monitoring, are essential to mitigate supply-chain and inference risks across the ML lifecycle.