SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding
作者: Songcheng Cai, Zhiheng Lyu, Yuansheng Ni, Xiangchao Chen, Baichuan Zhou, Shenzhe Zhu, Yi Lu, Haozhe Wang, Chi Ruan, Benjamin Schneider, Weixu Zhang, Xiang Li, Andy Zheng, Yuyu Zhang, Ping Nie, Wenhu Chen
分类: cs.SE, cs.AI, cs.CL
发布日期: 2026-03-17
💡 一句话要点
SWE-QA-Pro:提出代码仓库级理解的代表性基准和可扩展训练方案。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码仓库理解 Agentic模型 基准测试 合成数据 强化学习 软件工程 长尾分布
📋 核心要点
- 现有代码理解评估忽略长尾主题,且易受大型语言模型记忆的影响,缺乏可靠性。
- 提出SWE-QA-Pro基准,并设计合成数据管道驱动的两阶段训练方案,提升模型Agentic能力。
- Qwen3-8B模型通过该方案训练后,在SWE-QA-Pro上超越GPT-4o,验证了评估和训练方案的有效性。
📝 摘要(中文)
本文提出了SWE-QA-Pro,一个从多样化的、长尾代码仓库构建的、具有可执行环境的基准,用于评估Agentic代码仓库级理解。通过问题驱动的聚类实现主题平衡,覆盖了代表性不足的任务类型,并采用严格的难度校准过程,过滤掉直接回答基线可以解决的问题。实验表明,Agentic工作流明显优于直接回答。此外,本文提出了一个可扩展的合成数据管道,支持两阶段训练方案:监督微调(SFT)和基于AI反馈的强化学习(RLAIF)。实验结果表明,使用该方案训练的Qwen3-8B模型在SWE-QA-Pro上超过了GPT-4o,并大大缩小了与最先进的专有模型的差距,验证了评估的有效性和Agentic训练工作流的有效性。
🔬 方法详解
问题定义:现有代码仓库级理解的评估基准存在两个主要问题:一是忽略了长尾主题,导致评估结果不具有代表性;二是依赖于流行的代码仓库,使得大型语言模型可以通过记忆来作弊,无法真实反映其理解能力。因此,需要一个更具代表性、更难作弊的基准来评估Agentic代码理解能力。
核心思路:本文的核心思路是构建一个更具挑战性和代表性的基准,并设计一个可扩展的训练方案来提升模型的Agentic代码理解能力。具体来说,通过从多样化的长尾代码仓库中选取数据,并进行主题平衡和难度校准,构建SWE-QA-Pro基准。同时,通过合成数据管道生成训练数据,并采用监督微调和基于AI反馈的强化学习的两阶段训练方案,提升模型的工具使用和推理能力。
技术框架:整体框架包含两个主要部分:SWE-QA-Pro基准构建和Agentic模型训练。SWE-QA-Pro基准构建包括数据收集、主题聚类、难度校准等步骤。Agentic模型训练包括合成数据生成、监督微调(SFT)和基于AI反馈的强化学习(RLAIF)三个阶段。SFT阶段使用合成数据对模型进行微调,使其具备基本的代码理解和工具使用能力。RLAIF阶段使用AI反馈信号对模型进行强化学习,进一步提升其Agentic能力。
关键创新:本文的关键创新点在于:1) 提出了SWE-QA-Pro基准,该基准更具代表性和挑战性,能够更真实地反映模型的Agentic代码理解能力;2) 提出了一个可扩展的合成数据管道,能够生成大量的训练数据,解决Agentic模型训练数据稀缺的问题;3) 提出了一个两阶段训练方案,能够有效地提升模型的工具使用和推理能力。与现有方法的本质区别在于,本文更加关注长尾主题和Agentic能力,并提出了相应的解决方案。
关键设计:在SWE-QA-Pro基准构建中,采用了问题驱动的聚类方法来实现主题平衡,确保基准覆盖了各种类型的任务。同时,采用了难度校准过程,过滤掉直接回答基线可以解决的问题,提高了基准的难度。在Agentic模型训练中,采用了监督微调和基于AI反馈的强化学习的两阶段训练方案。具体来说,SFT阶段使用了交叉熵损失函数,RLAIF阶段使用了PPO算法。合成数据生成过程使用了多种策略,包括代码生成、问题生成和答案生成。
🖼️ 关键图片
📊 实验亮点
Qwen3-8B模型通过本文提出的训练方案,在SWE-QA-Pro基准上超越了GPT-4o 2.3个百分点,并显著缩小了与最先进的专有模型的差距。这表明本文提出的评估基准和训练方案是有效的,能够显著提升模型的Agentic代码理解能力。
🎯 应用场景
该研究成果可应用于自动化软件工程任务,例如代码审查、缺陷修复、代码生成等。通过提升代码仓库级理解能力,可以显著提高软件开发的效率和质量,降低开发成本。未来,该技术有望应用于更广泛的领域,例如智能编程助手、自动化测试等。
📄 摘要(原文)
Agentic repository-level code understanding is essential for automating complex software engineering tasks, yet the field lacks reliable benchmarks. Existing evaluations often overlook the long tail topics and rely on popular repositories where Large Language Models (LLMs) can cheat via memorized knowledge. To address this, we introduce SWE-QA-Pro, a benchmark constructed from diverse, long-tail repositories with executable environments. We enforce topical balance via issue-driven clustering to cover under-represented task types and apply a rigorous difficulty calibration process: questions solvable by direct-answer baselines are filtered out. This results in a dataset where agentic workflows significantly outperform direct answering (e.g., a ~13-point gap for Claude Sonnet 4.5), confirming the necessity of agentic codebase exploration. Furthermore, to tackle the scarcity of training data for such complex behaviors, we propose a scalable synthetic data pipeline that powers a two-stage training recipe: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning from AI Feedback (RLAIF). This approach allows small open models to learn efficient tool usage and reasoning. Empirically, a Qwen3-8B model trained with our recipe surpasses GPT-4o by 2.3 points on SWE-QA-Pro and substantially narrows the gap to state-of-the-art proprietary models, demonstrating both the validity of our evaluation and the effectiveness of our agentic training workflow.