From Trace to Line: LLM Agent for Real-World OSS Vulnerability Localization
作者: Haoran Xi, Minghao Shao, Brendan Dolan-Gavitt, Muhammad Shafique, Ramesh Karri
分类: cs.SE, cs.CR, cs.LG
发布日期: 2025-09-30 (更新: 2025-12-17)
💡 一句话要点
T2L-Agent:利用LLM和运行时信息实现开源软件漏洞的行级精确定位
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 漏洞定位 大型语言模型 运行时分析 开源软件安全 代码分析 Agentic Trace Analyzer T2L-ARVO
📋 核心要点
- 现有漏洞检测方法孤立分析代码,难以处理长上下文,且定位精度低,无法满足实际软件开发需求。
- T2L-Agent通过结合运行时信息和代码分析,迭代缩小范围,最终实现漏洞的行级精确定位。
- 在T2L-ARVO基准测试中,T2L-Agent的漏洞检测率和行级定位率显著优于现有基线方法。
📝 摘要(中文)
大型语言模型在漏洞发现方面展现出潜力,但现有方法通常孤立地检查代码,难以处理长上下文,并且侧重于粗粒度的函数或文件级别检测,这为需要在实际软件开发中进行精确行级定位和有针对性补丁的工程师提供的可操作指导有限。我们提出了T2L-Agent(Trace-to-Line Agent),一个项目级的端到端框架,它可以规划自己的分析,并逐步将范围从模块缩小到确切的易受攻击行。T2L-Agent将多轮反馈与Agentic Trace Analyzer(ATA)相结合,ATA将运行时证据(如崩溃点、堆栈跟踪和覆盖率增量)与基于AST的代码块相结合,从而实现超越单次预测的迭代改进,并将症状转化为可操作的行级诊断。为了基准测试行级漏洞发现,我们引入了T2L-ARVO,这是一个多样化的、经过专家验证的50个案例的基准,涵盖五个崩溃家族和真实世界的项目。T2L-ARVO专门设计用于支持粗粒度检测和细粒度定位,从而能够严格评估旨在超越文件级别预测的系统。在T2L-ARVO上,T2L-Agent实现了高达58.0%的检测率和54.8%的行级定位率,大大优于基线。
🔬 方法详解
问题定义:现有基于LLM的漏洞检测方法通常只能定位到函数或文件级别,无法提供精确的行级定位,这使得开发者难以快速修复漏洞。现有方法缺乏对运行时信息的有效利用,导致分析效率低下,难以处理复杂的漏洞场景。
核心思路:T2L-Agent的核心思路是将静态代码分析与动态运行时信息相结合,通过多轮迭代的方式逐步缩小漏洞定位范围。利用LLM的推理能力进行分析规划,并根据运行时反馈不断调整分析策略,最终实现漏洞的行级精确定位。
技术框架:T2L-Agent包含以下主要模块:1) 分析规划器:利用LLM制定分析策略,确定下一步分析的模块或代码块。2) Agentic Trace Analyzer (ATA):融合运行时信息(如崩溃点、堆栈跟踪、覆盖率增量)和基于AST的代码块,进行漏洞分析。3) 反馈机制:根据ATA的分析结果,更新分析规划,进行下一轮迭代。整体流程是一个迭代优化的过程,不断缩小分析范围,提高定位精度。
关键创新:T2L-Agent的关键创新在于Agentic Trace Analyzer (ATA),它将运行时信息与代码分析相结合,实现了更精确的漏洞定位。此外,多轮迭代的分析框架也使得T2L-Agent能够处理更复杂的漏洞场景,并根据反馈不断优化分析策略。与现有方法相比,T2L-Agent不再是单次预测,而是通过迭代改进,逐步逼近漏洞位置。
关键设计:T2L-Agent使用LLM作为分析规划器,具体使用的LLM型号未知。Agentic Trace Analyzer (ATA) 的具体实现细节,例如如何融合运行时信息和代码块,以及如何进行漏洞分析,论文中没有详细描述。多轮迭代的停止条件和反馈机制的具体实现也未知。
🖼️ 关键图片
📊 实验亮点
T2L-Agent在T2L-ARVO基准测试中取得了显著的性能提升,漏洞检测率达到58.0%,行级定位率达到54.8%,大幅优于现有基线方法。这些结果表明T2L-Agent在实际应用中具有很高的价值,能够有效提高漏洞定位的精度和效率。
🎯 应用场景
T2L-Agent可应用于开源软件的安全审计、漏洞挖掘和自动修复等领域。它可以帮助开发者快速定位并修复漏洞,提高软件的安全性和可靠性。该研究成果有望推动基于LLM的自动化漏洞分析技术的发展,并降低软件安全维护的成本。
📄 摘要(原文)
Large language models show promise for vulnerability discovery, yet prevailing methods inspect code in isolation, struggle with long contexts, and focus on coarse function or file level detections which offers limited actionable guidance to engineers who need precise line-level localization and targeted patches in real-world software development. We present T2L-Agent (Trace-to-Line Agent), a project-level, end-to-end framework that plans its own analysis and progressively narrows scope from modules to exact vulnerable lines. T2L-Agent couples multi-round feedback with an Agentic Trace Analyzer (ATA) that fuses run-time evidence such as crash points, stack traces, and coverage deltas with AST-based code chunking, enabling iterative refinement beyond single pass predictions and translating symptoms into actionable, line-level diagnoses. To benchmark line-level vulnerability discovery, we introduce T2L-ARVO, a diverse, expert-verified 50-case benchmark spanning five crash families and real-world projects. T2L-ARVO is specifically designed to support both coarse-grained detection and fine-grained localization, enabling rigorous evaluation of systems that aim to move beyond file-level predictions. On T2L-ARVO, T2L-Agent achieves up to 58.0% detection and 54.8% line-level localization, substantially outperforming baselines. Together, the framework and benchmark push LLM-based vulnerability detection from coarse identification toward deployable, robust, precision diagnostics that reduce noise and accelerate patching in open-source software workflows.