From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level

作者: Jia Li, Yuxin Su, Michael R. Lyu

分类: cs.SE, cs.AI

发布日期: 2026-01-07

💡 一句话要点

RepoReason：提出仓库级代码推理白盒基准，诊断Agent代码能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码推理 大型语言模型 自主Agent 基准测试 白盒诊断

📋 核心要点

现有代码推理基准缺乏真实性和诊断性，无法有效评估Agent在复杂代码库中的推理能力。
RepoReason通过执行驱动的变异框架生成ground-truth，并利用动态程序切片进行细粒度诊断，实现白盒评估。
实验表明，前沿模型在集成宽度方面存在认知瓶颈，揭示了Agent代码推理能力的关键缺陷。

📝 摘要（中文）

随着大型语言模型(LLMs)发展为自主Agent，评估仓库级推理能力变得至关重要，该能力是指在大型、真实、相互依赖的文件系统中保持逻辑一致性的能力。现有的基准测试通常在孤立的代码片段和黑盒评估之间波动。我们提出了RepoReason，这是一个以溯因断言验证为中心的白盒诊断基准。为了消除记忆效应，同时保留真实的逻辑深度，我们实现了一个执行驱动的变异框架，该框架利用环境作为语义预言机来重新生成ground-truth状态。此外，我们建立了一个使用动态程序切片的细粒度诊断系统，通过三个正交指标量化推理：$ESV$（读取负载）、$MCL$（模拟深度）和$DFI$（集成宽度）。对前沿模型（例如，Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus）的全面评估揭示了一种普遍存在的聚合缺陷，其中集成宽度是主要的认知瓶颈。我们的发现为优化下一代Agent软件工程提供了细粒度的白盒见解。

🔬 方法详解

问题定义：现有代码推理基准主要存在两个问题。一是真实性不足，通常使用孤立的代码片段，无法模拟真实软件仓库的复杂性和依赖关系。二是诊断性不足，多为黑盒评估，难以深入了解模型的推理过程和瓶颈。因此，需要一个更真实、更具诊断性的基准来评估Agent在仓库级别的代码推理能力。

核心思路：RepoReason的核心思路是构建一个白盒、可控的基准，通过执行驱动的变异来保证真实性，并利用动态程序切片进行细粒度诊断。通过这种方式，可以深入了解Agent的推理过程，并识别其认知瓶颈。

技术框架：RepoReason包含两个主要模块：数据生成模块和评估模块。数据生成模块使用执行驱动的变异框架，通过修改代码并执行来生成新的ground-truth状态。评估模块使用动态程序切片来分析Agent的推理过程，并计算三个指标：$ESV$（读取负载）、$MCL$（模拟深度）和$DFI$（集成宽度）。

关键创新：RepoReason的关键创新在于其白盒诊断方法和执行驱动的变异框架。白盒诊断方法允许深入了解Agent的推理过程，而执行驱动的变异框架可以生成更真实、更具挑战性的测试用例。此外，三个正交指标的设计也为全面评估Agent的推理能力提供了可能。

关键设计：执行驱动的变异框架通过随机修改代码中的变量、函数调用等，并执行修改后的代码来生成新的状态。为了保证生成的状态是有效的，框架使用环境作为语义预言机，只保留那些能够成功执行的状态。动态程序切片用于提取与特定断言相关的代码片段，从而可以更精确地评估Agent的推理能力。三个指标的设计旨在量化Agent在不同方面的推理能力，例如，$ESV$衡量Agent需要读取的代码量，$MCL$衡量Agent需要模拟的执行深度，$DFI$衡量Agent需要集成的代码宽度。

📊 实验亮点

实验结果表明，前沿模型在RepoReason基准上的表现存在显著差异，且普遍存在聚合缺陷，即集成宽度($DFI$)是主要的认知瓶颈。例如，某些模型在处理需要集成多个文件才能推理的问题时，性能明显下降。这些发现为优化下一代Agent软件工程提供了重要的指导。

🎯 应用场景

RepoReason可用于评估和改进Agent在软件工程领域的应用，例如代码自动补全、代码缺陷检测、代码重构等。通过诊断Agent的推理瓶颈，可以指导模型架构设计和训练策略优化，从而提高Agent在实际软件开发中的效率和可靠性。该基准也有助于推动Agent在更广泛的领域中的应用，例如自动化测试、系统维护等。

📄 摘要（原文）

As large language models (LLMs) evolve into autonomous agents, evaluating repository-level reasoning, the ability to maintain logical consistency across massive, real-world, interdependent file systems, has become critical. Current benchmarks typically fluctuate between isolated code snippets and black-box evaluations. We present RepoReason, a white-box diagnostic benchmark centered on abductive assertion verification. To eliminate memorization while preserving authentic logical depth, we implement an execution-driven mutation framework that utilizes the environment as a semantic oracle to regenerate ground-truth states. Furthermore, we establish a fine-grained diagnostic system using dynamic program slicing, quantifying reasoning via three orthogonal metrics: $ESV$ (reading load), $MCL$ (simulation depth), and $DFI$ (integration width). Comprehensive evaluations of frontier models (e.g., Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus) reveal a prevalent aggregation deficit, where integration width serves as the primary cognitive bottleneck. Our findings provide granular white-box insights for optimizing the next generation of agentic software engineering.

From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册