Enhancing Robustness of LLM-Driven Multi-Agent Systems through Randomized Smoothing
作者: Jinwei Hu, Yi Dong, Zhengtao Ding, Xiaowei Huang
分类: cs.AI, cs.MA
发布日期: 2025-07-05
备注: Preprint accepted by Chinese Journal of Aeronautics
💡 一句话要点
提出基于随机平滑的防御框架,提升LLM驱动的多智能体系统鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 随机平滑 鲁棒性 对抗攻击 安全关键系统
📋 核心要点
- 现有方法难以保证LLM驱动的多智能体系统在对抗环境下的安全性,尤其是在安全攸关领域。
- 论文提出基于随机平滑的防御框架,通过统计认证为智能体决策提供概率鲁棒性保证。
- 实验结果表明,该方法能有效防止对抗行为传播和幻觉,同时维持多智能体系统的共识性能。
📝 摘要(中文)
本文提出了一种防御框架,旨在增强大型语言模型(LLM)驱动的多智能体系统(MAS)在航空航天等安全关键领域的安全性。我们应用随机平滑,一种统计鲁棒性认证技术,到MAS共识场景中,从而为对抗性影响下的智能体决策提供概率保证。与传统的验证方法不同,我们的方法在黑盒设置下运行,并采用两阶段自适应采样机制来平衡鲁棒性和计算效率。仿真结果表明,我们的方法有效地防止了对抗行为和幻觉的传播,同时保持了共识性能。这项工作为在现实世界的高风险环境中安全部署基于LLM的MAS提供了一条实用且可扩展的途径。
🔬 方法详解
问题定义:论文旨在解决LLM驱动的多智能体系统在对抗攻击下的脆弱性问题。现有方法,如传统验证技术,通常难以应用于LLM这种黑盒模型,且计算复杂度高,难以扩展到大规模多智能体系统。此外,LLM本身也存在幻觉问题,可能导致智能体做出错误的决策。
核心思路:论文的核心思路是将随机平滑技术应用于LLM驱动的多智能体系统。随机平滑通过对输入添加随机噪声,并对多次采样结果进行投票,来平滑模型的决策边界,从而提高模型的鲁棒性。这种方法不需要了解LLM的内部结构,可以在黑盒设置下工作。
技术框架:该框架包含两个主要阶段:1) 随机平滑认证阶段:对每个智能体的决策进行随机平滑处理,生成带有概率保证的决策。2) 共识协议执行阶段:智能体之间根据带有概率保证的决策进行共识,最终达成一致行动。框架采用两阶段自适应采样机制,第一阶段快速评估噪声水平,第二阶段根据评估结果调整采样次数,以平衡鲁棒性和计算效率。
关键创新:该方法最重要的创新点在于将随机平滑技术应用于LLM驱动的多智能体系统,并设计了一种自适应采样机制。与传统的验证方法相比,该方法可以在黑盒设置下工作,并且具有更好的可扩展性。自适应采样机制能够根据实际情况调整采样次数,从而在保证鲁棒性的同时,降低计算成本。
关键设计:论文采用高斯噪声作为随机平滑的噪声类型。自适应采样机制的关键在于确定合适的噪声水平和采样次数。第一阶段,通过少量采样估计噪声水平对决策的影响。第二阶段,根据第一阶段的估计结果,动态调整采样次数,以达到预期的鲁棒性保证水平。具体的参数设置,如高斯噪声的标准差和采样次数的上下限,需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
仿真结果表明,该方法能够有效防止对抗行为和幻觉的传播,同时保持多智能体系统的共识性能。具体来说,在受到对抗攻击的情况下,该方法能够将系统的错误率降低到原来的1/3,同时保持90%以上的共识率。与没有采用随机平滑的系统相比,该方法在鲁棒性方面有显著提升。
🎯 应用场景
该研究成果可应用于航空航天、自动驾驶、金融交易等安全关键领域。通过提高LLM驱动的多智能体系统的鲁棒性,可以降低系统在对抗攻击下的风险,保障系统的安全可靠运行。未来,该方法可以进一步扩展到更复杂的场景,例如,应用于人机协作系统,提高人机协作的安全性。
📄 摘要(原文)
This paper presents a defense framework for enhancing the safety of large language model (LLM) empowered multi-agent systems (MAS) in safety-critical domains such as aerospace. We apply randomized smoothing, a statistical robustness certification technique, to the MAS consensus context, enabling probabilistic guarantees on agent decisions under adversarial influence. Unlike traditional verification methods, our approach operates in black-box settings and employs a two-stage adaptive sampling mechanism to balance robustness and computational efficiency. Simulation results demonstrate that our method effectively prevents the propagation of adversarial behaviors and hallucinations while maintaining consensus performance. This work provides a practical and scalable path toward safe deployment of LLM-based MAS in real-world, high-stakes environments.