Argus: Reorchestrating Static Analysis via a Multi-Agent Ensemble for Full-Chain Security Vulnerability Detection

📄 arXiv: 2604.06633v1 📥 PDF

作者: Zi Liang, Qipeng Xie, Jun He, Bohuan Xue, Weizheng Wang, Yuandao Cai, Fei Luo, Boxian Zhang, Haibo Hu, Kaishun Wu

分类: cs.CR, cs.CL, cs.SE

发布日期: 2026-04-08


💡 一句话要点

Argus:通过多智能体集成重构静态分析,实现全链安全漏洞检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 静态应用安全测试 大型语言模型 多智能体系统 漏洞检测 检索增强生成

📋 核心要点

  1. 现有基于LLM的SAST方法未能有效整合现有工具,导致误报率高、推理深度有限等问题,难以实际部署。
  2. Argus通过多智能体框架重构SAST流程,集成供应链分析、RAG和ReAct等技术,提升漏洞检测能力。
  3. 实验表明,Argus在检测真实漏洞方面显著优于现有方法,同时降低了误报率和运营成本,并发现了零日漏洞。

📝 摘要(中文)

大型语言模型(LLMs)在静态应用安全测试(SAST)中的应用因其卓越的上下文推理能力而备受关注。然而,现有的基于LLM的方法通常试图直接取代人类专家,未能有效整合现有的SAST工具,导致高误报率、幻觉、推理深度有限和过度Token使用等问题,使其在工业部署中不切实际。为了克服这些限制,本文提出了一种范式转变,将SAST工作流程从当前LLM辅助结构重构为以LLM为中心的新工作流程。我们引入了Argus(Agentic and Retrieval-Augmented Guarding System),这是第一个专门为漏洞检测设计的多智能体框架。Argus包含三个关键创新:全面的供应链分析、协作式多智能体工作流程,以及检索增强生成(RAG)和ReAct等先进技术的集成,以最大限度地减少幻觉并增强推理能力。广泛的实证评估表明,Argus通过检测更高数量的真实漏洞,同时减少误报和运营成本,显著优于现有方法。值得注意的是,Argus已经识别出几个具有CVE分配的关键零日漏洞。

🔬 方法详解

问题定义:现有基于LLM的静态应用安全测试方法,虽然具备一定的上下文推理能力,但由于未能与现有SAST工具有效整合,导致误报率高、幻觉现象严重、推理深度不足以及Token使用量过大等问题,严重阻碍了其在工业环境中的实际应用。这些问题使得现有方法在检测复杂漏洞时表现不佳,且成本效益较低。

核心思路:Argus的核心思路是将SAST流程从LLM辅助模式转变为以LLM为中心的多智能体协作模式。通过构建一个多智能体系统,每个智能体负责不同的任务,并利用检索增强生成(RAG)和ReAct等技术来增强LLM的推理能力和减少幻觉,从而提高漏洞检测的准确性和效率。

技术框架:Argus框架包含多个协作的智能体,每个智能体负责特定的任务,例如代码分析、漏洞模式匹配、漏洞验证等。框架利用RAG技术,从外部知识库中检索相关信息,为LLM提供更全面的上下文。同时,采用ReAct框架,使智能体能够进行推理和行动,并通过迭代的方式逐步解决问题。整体流程包括代码输入、智能体协作分析、漏洞报告生成等阶段。

关键创新:Argus的关键创新在于其多智能体协作架构和对RAG及ReAct技术的集成。与传统的单体LLM方法相比,Argus能够更好地分解复杂任务,利用多个智能体的专业知识进行协同分析。RAG技术能够有效减少LLM的幻觉,提高推理的准确性。ReAct框架则赋予智能体更强的推理和行动能力,使其能够更有效地发现和验证漏洞。

关键设计:Argus框架的关键设计包括智能体的角色定义、智能体之间的通信协议、RAG的知识库构建和检索策略、ReAct的行动空间设计等。具体参数设置和网络结构取决于所使用的LLM和具体任务。损失函数的设计目标是最大化漏洞检测的准确率和召回率,同时最小化误报率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Argus在实验中显著优于现有方法,能够检测到更高数量的真实漏洞,同时降低了误报率和运营成本。实验结果表明,Argus在漏洞检测的准确率和召回率方面均有显著提升。更重要的是,Argus成功识别出多个具有CVE编号的零日漏洞,证明了其在实际应用中的有效性。

🎯 应用场景

Argus可应用于软件开发生命周期的各个阶段,包括代码审查、安全审计和漏洞修复。它可以帮助开发人员和安全专家更有效地识别和修复安全漏洞,提高软件的安全性。此外,Argus还可以用于自动化安全测试,降低人工成本,提高测试效率。该研究的成果对于提升软件安全水平具有重要意义。

📄 摘要(原文)

Recent advancements in Large Language Models (LLMs) have sparked interest in their application to Static Application Security Testing (SAST), primarily due to their superior contextual reasoning capabilities compared to traditional symbolic or rule-based methods. However, existing LLM-based approaches typically attempt to replace human experts directly without integrating effectively with existing SAST tools. This lack of integration results in ineffectiveness, including high rates of false positives, hallucinations, limited reasoning depth, and excessive token usage, making them impractical for industrial deployment. To overcome these limitations, we present a paradigm shift that reorchestrates the SAST workflow from current LLM-assisted structure to a new LLM-centered workflow. We introduce Argus (Agentic and Retrieval-Augmented Guarding System), the first multi-agent framework designed specifically for vulnerability detection. Argus incorporates three key novelties: comprehensive supply chain analysis, collaborative multi-agent workflows, and the integration of state-of-the-art techniques such as Retrieval-Augmented Generation (RAG) and ReAct to minimize hallucinations and enhance reasoning. Extensive empirical evaluation demonstrates that Argus significantly outperforms existing methods by detecting a higher volume of true vulnerabilities while simultaneously reducing false positives and operational costs. Notably, Argus has identified several critical zero-day vulnerabilities with CVE assignments.