From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level

📄 arXiv: 2601.03731v1 📥 PDF

作者: Jia Li, Yuxin Su, Michael R. Lyu

分类: cs.SE, cs.AI

发布日期: 2026-01-07


💡 一句话要点

RepoReason:提出仓库级代码推理白盒基准,诊断Agent代码能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码推理 大型语言模型 自主Agent 基准测试 白盒诊断

📋 核心要点

  1. 现有代码推理基准缺乏真实性和诊断性,无法有效评估Agent在复杂代码库中的推理能力。
  2. RepoReason通过执行驱动的变异框架生成ground-truth,并利用动态程序切片进行细粒度诊断,实现白盒评估。
  3. 实验表明,前沿模型在集成宽度方面存在认知瓶颈,揭示了Agent代码推理能力的关键缺陷。

📝 摘要(中文)

随着大型语言模型(LLMs)发展为自主Agent,评估仓库级推理能力变得至关重要,该能力是指在大型、真实、相互依赖的文件系统中保持逻辑一致性的能力。现有的基准测试通常在孤立的代码片段和黑盒评估之间波动。我们提出了RepoReason,这是一个以溯因断言验证为中心的白盒诊断基准。为了消除记忆效应,同时保留真实的逻辑深度,我们实现了一个执行驱动的变异框架,该框架利用环境作为语义预言机来重新生成ground-truth状态。此外,我们建立了一个使用动态程序切片的细粒度诊断系统,通过三个正交指标量化推理:$ESV$(读取负载)、$MCL$(模拟深度)和$DFI$(集成宽度)。对前沿模型(例如,Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus)的全面评估揭示了一种普遍存在的聚合缺陷,其中集成宽度是主要的认知瓶颈。我们的发现为优化下一代Agent软件工程提供了细粒度的白盒见解。

🔬 方法详解

问题定义:现有代码推理基准主要存在两个问题。一是真实性不足,通常使用孤立的代码片段,无法模拟真实软件仓库的复杂性和依赖关系。二是诊断性不足,多为黑盒评估,难以深入了解模型的推理过程和瓶颈。因此,需要一个更真实、更具诊断性的基准来评估Agent在仓库级别的代码推理能力。

核心思路:RepoReason的核心思路是构建一个白盒、可控的基准,通过执行驱动的变异来保证真实性,并利用动态程序切片进行细粒度诊断。通过这种方式,可以深入了解Agent的推理过程,并识别其认知瓶颈。

技术框架:RepoReason包含两个主要模块:数据生成模块和评估模块。数据生成模块使用执行驱动的变异框架,通过修改代码并执行来生成新的ground-truth状态。评估模块使用动态程序切片来分析Agent的推理过程,并计算三个指标:$ESV$(读取负载)、$MCL$(模拟深度)和$DFI$(集成宽度)。

关键创新:RepoReason的关键创新在于其白盒诊断方法和执行驱动的变异框架。白盒诊断方法允许深入了解Agent的推理过程,而执行驱动的变异框架可以生成更真实、更具挑战性的测试用例。此外,三个正交指标的设计也为全面评估Agent的推理能力提供了可能。

关键设计:执行驱动的变异框架通过随机修改代码中的变量、函数调用等,并执行修改后的代码来生成新的状态。为了保证生成的状态是有效的,框架使用环境作为语义预言机,只保留那些能够成功执行的状态。动态程序切片用于提取与特定断言相关的代码片段,从而可以更精确地评估Agent的推理能力。三个指标的设计旨在量化Agent在不同方面的推理能力,例如,$ESV$衡量Agent需要读取的代码量,$MCL$衡量Agent需要模拟的执行深度,$DFI$衡量Agent需要集成的代码宽度。

📊 实验亮点

实验结果表明,前沿模型在RepoReason基准上的表现存在显著差异,且普遍存在聚合缺陷,即集成宽度($DFI$)是主要的认知瓶颈。例如,某些模型在处理需要集成多个文件才能推理的问题时,性能明显下降。这些发现为优化下一代Agent软件工程提供了重要的指导。

🎯 应用场景

RepoReason可用于评估和改进Agent在软件工程领域的应用,例如代码自动补全、代码缺陷检测、代码重构等。通过诊断Agent的推理瓶颈,可以指导模型架构设计和训练策略优化,从而提高Agent在实际软件开发中的效率和可靠性。该基准也有助于推动Agent在更广泛的领域中的应用,例如自动化测试、系统维护等。

📄 摘要(原文)

As large language models (LLMs) evolve into autonomous agents, evaluating repository-level reasoning, the ability to maintain logical consistency across massive, real-world, interdependent file systems, has become critical. Current benchmarks typically fluctuate between isolated code snippets and black-box evaluations. We present RepoReason, a white-box diagnostic benchmark centered on abductive assertion verification. To eliminate memorization while preserving authentic logical depth, we implement an execution-driven mutation framework that utilizes the environment as a semantic oracle to regenerate ground-truth states. Furthermore, we establish a fine-grained diagnostic system using dynamic program slicing, quantifying reasoning via three orthogonal metrics: $ESV$ (reading load), $MCL$ (simulation depth), and $DFI$ (integration width). Comprehensive evaluations of frontier models (e.g., Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus) reveal a prevalent aggregation deficit, where integration width serves as the primary cognitive bottleneck. Our findings provide granular white-box insights for optimizing the next generation of agentic software engineering.