SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

作者: Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao

分类: cs.SE, cs.AI

发布日期: 2026-03-09

备注: 19 pages

💡 一句话要点

SWE-Fuse：通过无问题轨迹学习和熵感知RLVR训练增强软件智能体

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 软件智能体 问题修复 轨迹学习 强化学习 熵感知 数据增强 大型语言模型

📋 核心要点

现有基于LLM的软件智能体受限于真实世界软件问题描述质量不高，存在噪声和歧义，影响问题解决能力。
SWE-Fuse框架融合了问题描述引导和无问题样本，通过无问题轨迹学习和熵感知RLVR训练，提升智能体性能。
实验表明，SWE-Fuse在SWE-bench Verified基准上显著优于现有最佳模型，解决率提升高达60.2%。

📝 摘要（中文）

大型语言模型（LLMs）已经改变了软件工程领域。最近，涌现出许多基于LLM的智能体来解决现实世界的软件问题修复任务。尽管这些智能体取得了最先进的性能，但它们面临一个重大挑战：高质量问题描述的不足。现实世界的数据集通常表现出问题描述与其对应解决方案之间的不一致，引入了噪声和歧义，误导了自动化智能体，并限制了它们解决问题的有效性。我们提出了SWE-Fuse，一个问题描述感知的训练框架，它融合了问题描述引导的和无问题的样本，用于训练SWE智能体。它由两个关键模块组成：（1）一个无问题驱动的轨迹学习模块，用于减轻潜在的误导性问题描述，同时使模型能够学习逐步调试过程；（2）一个熵感知RLVR训练模块，通过熵驱动的裁剪自适应地调整训练动态。它在高熵下应用宽松的裁剪以鼓励探索，在低熵下应用更严格的裁剪以确保训练稳定性。我们在广泛研究的SWE-bench Verified基准上评估了SWE-Fuse，证明了其在解决现实世界软件问题方面的有效性。具体而言，SWE-Fuse在解决率方面分别优于最佳8B和32B基线43.0％和60.2％。此外，将SWE-Fuse与测试时缩放（TTS）集成可以进一步提高性能，在TTS@8下，8B和32B模型的解决率分别达到49.8％和65.2％。

🔬 方法详解

问题定义：论文旨在解决软件智能体在现实场景中因问题描述质量不高而导致的性能瓶颈。现有方法依赖于有噪声的问题描述进行训练，导致智能体学习到错误的关联，降低了问题解决的准确性和效率。

核心思路：SWE-Fuse的核心思路是融合问题描述引导的样本和无问题描述的样本进行训练。通过无问题轨迹学习，使智能体能够学习到正确的调试步骤，减轻问题描述噪声的影响。同时，利用熵感知RLVR训练，自适应地调整训练过程，在高熵时鼓励探索，在低熵时保证稳定。

技术框架：SWE-Fuse框架包含两个主要模块：1) 无问题驱动的轨迹学习模块：该模块通过学习无问题描述的调试轨迹，使智能体能够掌握通用的调试技巧和步骤。2) 熵感知RLVR训练模块：该模块利用熵值来衡量智能体的不确定性，并根据熵值动态调整RLVR（Reinforcement Learning from Value Regularization）训练过程中的裁剪幅度。

关键创新：SWE-Fuse的关键创新在于：1) 融合了问题描述引导和无问题样本进行训练，有效利用了两种类型的数据。2) 提出了熵感知RLVR训练方法，能够自适应地调整训练过程，平衡探索和稳定。

关键设计：熵感知RLVR训练模块的关键设计在于熵驱动的裁剪策略。具体来说，当智能体的熵值较高时，表明其对当前状态的理解不够确定，此时采用较宽松的裁剪幅度，鼓励智能体进行探索。当智能体的熵值较低时，表明其对当前状态的理解较为确定，此时采用较严格的裁剪幅度，保证训练的稳定性。

🖼️ 关键图片

📊 实验亮点

SWE-Fuse在SWE-bench Verified基准测试中表现出色，显著优于现有最佳模型。具体而言，SWE-Fuse在解决率方面分别优于最佳8B和32B基线43.0％和60.2％。结合测试时缩放（TTS）技术后，8B和32B模型的解决率分别达到49.8％和65.2％，进一步验证了SWE-Fuse的有效性。

🎯 应用场景

SWE-Fuse具有广泛的应用前景，可用于提升各种软件智能体的性能，例如代码修复、漏洞检测、代码生成等。该研究成果有助于开发更智能、更可靠的自动化软件工程工具，提高软件开发效率和质量，降低开发成本。

📄 摘要（原文）

Large language models (LLMs) have transformed the software engineering landscape. Recently, numerous LLM-based agents have been developed to address real-world software issue fixing tasks. Despite their state-of-the-art performance, Despite achieving state-of-the-art performance, these agents face a significant challenge: \textbf{Insufficient high-quality issue descriptions.} Real-world datasets often exhibit misalignments between issue descriptions and their corresponding solutions, introducing noise and ambiguity that mislead automated agents and limit their problem-solving effectiveness. We propose \textbf{\textit{SWE-Fuse}}, an issue-description-aware training framework that fuses issue-description-guided and issue-free samples for training SWE agents. It consists of two key modules: (1) An issue-free-driven trajectory learning module for mitigating potentially misleading issue descriptions while enabling the model to learn step-by-step debugging processes; and (2) An entropy-aware RLVR training module, which adaptively adjusts training dynamics through entropy-driven clipping. It applies relaxed clipping under high entropy to encourage exploration, and stricter clipping under low entropy to ensure training stability. We evaluate SWE-Fuse on the widely studied SWE-bench Verified benchmark shows to demonstrate its effectiveness in solving real-world software problems. Specifically, SWE-Fuse outperforms the best 8B and 32B baselines by 43.0\% and 60.2\% in solve rate, respectively. Furthermore, integrating SWE-Fuse with test-time scaling (TTS) enables further performance improvements, achieving solve rates of 49.8\% and 65.2\% under TTS@8 for the 8B and 32B models, respectively.

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理