Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems

作者: Armstrong Foundjem, Lionel Nganyewou Tidjon, Leuson Da Silva, Foutse Khomh

分类: cs.CR, cs.LG, cs.MA

发布日期: 2025-12-29

备注: 56 pages, 18 Figures, 22 Tables, TOSEM

💡 一句话要点

提出多智能体框架，用于缓解和增强人工智能系统的威胁抵御能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器学习安全 威胁建模 多智能体系统 RAG系统 大型语言模型 知识图谱 漏洞分析

📋 核心要点

现有网络安全方法缺乏针对机器学习模型（尤其是基础模型、多模态模型和RAG系统）的特定威胁建模。
提出一种多智能体RAG系统，通过分析大量威胁数据，构建本体驱动的威胁图，关联TTP、漏洞和生命周期阶段。
识别出商业LLM API模型窃取、参数记忆泄漏等未报告威胁，并揭示了主要TTP和高风险漏洞集群。

📝 摘要（中文）

机器学习正支撑着金融、医疗和关键基础设施中的基础模型，使其成为数据投毒、模型提取、提示注入、自动越狱和利用模型比较的偏好引导黑盒攻击的目标。更大的模型更容易受到内省驱动的越狱和跨模态操纵的影响。传统的网络安全缺乏针对基础模型、多模态和RAG系统的机器学习特定威胁建模。本研究旨在通过识别主要的TTP、漏洞和目标生命周期阶段来描述机器学习安全风险。我们从MITRE ATLAS（26个）、AI Incident Database（12个）和文献（55个）中提取了93个威胁，并分析了854个GitHub/Python存储库。一个多智能体RAG系统（ChatGPT-4o，温度0.4）挖掘了300多篇文章，构建了一个本体驱动的威胁图，将TTP、漏洞和阶段联系起来。我们识别出未报告的威胁，包括商业LLM API模型窃取、参数记忆泄漏和偏好引导的纯文本越狱。主要的TTP包括MASTERKEY风格的越狱、联邦投毒、扩散后门和偏好优化泄漏，主要影响预训练和推理。图分析揭示了具有较差补丁传播的库中的密集漏洞集群。结论是，自适应的、机器学习特定的安全框架，结合依赖卫生、威胁情报和监控，对于缓解整个机器学习生命周期中的供应链和推理风险至关重要。

🔬 方法详解

问题定义：论文旨在解决机器学习系统，特别是基于大型语言模型（LLM）的系统，在面对各种安全威胁时的脆弱性问题。现有的网络安全方法通常不足以应对机器学习模型特有的攻击方式，例如数据投毒、模型提取、提示注入和越狱攻击。这些攻击可能导致模型性能下降、敏感信息泄露甚至系统崩溃。

核心思路：论文的核心思路是构建一个多智能体框架，利用RAG（Retrieval-Augmented Generation）系统，从大量的威胁情报数据中提取、分析和关联威胁信息，从而构建一个全面的威胁图。该威胁图能够帮助安全专家识别潜在的攻击路径、漏洞和关键的攻击阶段，从而制定更有效的防御策略。

技术框架：该框架主要包含以下几个模块：1) 威胁数据收集模块：从MITRE ATLAS、AI Incident Database和相关文献中收集威胁数据。2) 知识图谱构建模块：利用多智能体RAG系统（ChatGPT-4o）从收集到的数据中提取实体（TTP、漏洞、阶段）和关系，构建本体驱动的威胁图。3) 威胁分析模块：分析威胁图，识别主要的TTP、高风险漏洞集群和关键的攻击阶段。4) 安全策略生成模块：基于威胁分析结果，生成针对性的安全策略，例如依赖项管理、威胁情报和监控。

关键创新：该论文的关键创新在于：1) 多智能体RAG系统：利用多智能体系统自动化地从海量数据中提取和关联威胁信息，提高了威胁情报分析的效率和准确性。2) 本体驱动的威胁图：构建了一个结构化的威胁知识库，能够清晰地展示威胁之间的关系和攻击路径。3) 识别未报告的威胁：通过分析，识别出商业LLM API模型窃取、参数记忆泄漏等新型威胁。

关键设计：RAG系统使用ChatGPT-4o作为核心引擎，温度参数设置为0.4，以平衡生成结果的创造性和准确性。威胁图的构建基于预定义的本体，该本体定义了威胁相关的实体类型（TTP、漏洞、阶段）和关系类型。论文还重点关注了依赖项管理，强调了及时更新和修补漏洞的重要性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架能够识别出未报告的威胁，例如商业LLM API模型窃取和参数记忆泄漏。通过分析威胁图，发现主要的TTP包括MASTERKEY风格的越狱、联邦投毒和扩散后门。此外，还识别出具有较差补丁传播的库中的密集漏洞集群，为安全专家提供了有价值的威胁情报。

🎯 应用场景

该研究成果可应用于提高人工智能系统的安全性，尤其是在金融、医疗和关键基础设施等领域。通过构建全面的威胁图和制定针对性的安全策略，可以有效降低机器学习模型遭受攻击的风险，保护敏感数据和系统安全。该研究还有助于开发更安全的LLM应用，并促进人工智能技术的可靠应用。

📄 摘要（原文）

Machine learning (ML) underpins foundation models in finance, healthcare, and critical infrastructure, making them targets for data poisoning, model extraction, prompt injection, automated jailbreaking, and preference-guided black-box attacks that exploit model comparisons. Larger models can be more vulnerable to introspection-driven jailbreaks and cross-modal manipulation. Traditional cybersecurity lacks ML-specific threat modeling for foundation, multimodal, and RAG systems. Objective: Characterize ML security risks by identifying dominant TTPs, vulnerabilities, and targeted lifecycle stages. Methods: We extract 93 threats from MITRE ATLAS (26), AI Incident Database (12), and literature (55), and analyze 854 GitHub/Python repositories. A multi-agent RAG system (ChatGPT-4o, temp 0.4) mines 300+ articles to build an ontology-driven threat graph linking TTPs, vulnerabilities, and stages. Results: We identify unreported threats including commercial LLM API model stealing, parameter memorization leakage, and preference-guided text-only jailbreaks. Dominant TTPs include MASTERKEY-style jailbreaking, federated poisoning, diffusion backdoors, and preference optimization leakage, mainly impacting pre-training and inference. Graph analysis reveals dense vulnerability clusters in libraries with poor patch propagation. Conclusion: Adaptive, ML-specific security frameworks, combining dependency hygiene, threat intelligence, and monitoring, are essential to mitigate supply-chain and inference risks across the ML lifecycle.

Multi-Agent Framework for Threat Mitigation and Resilience in AI-Based Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册