Enhancing Software Engineering Through Closed-Loop Memory Optimization
作者: Xuehang Guo, Zora Zhiruo Wang, Qingyun Wang, Graham Neubig, Xingyao Wang
分类: cs.SE, cs.AI
发布日期: 2026-06-04
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出闭环记忆优化框架以提升软件工程代理的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 软件工程 记忆优化 大型语言模型 闭环系统 性能提升 自动化工具 经验重用
📋 核心要点
- 现有的软件工程代理在任务间缺乏记忆能力,无法有效保留和重用经验,导致重复错误和低效工作。
- 本文提出了一种闭环记忆优化框架,通过验证的下游影响来定义记忆效用,提供任务无关的评估和优化信号。
- 实验结果显示,该框架在成功率上提升了5.25%,解决效率提升了4.63%,同时计算成本降低了9.79%。
📝 摘要(中文)
大型语言模型(LLMs)使得软件工程(SE)代理能够处理复杂代码库并解决实际问题。然而,这些代理在任务间缺乏记忆能力,无法保留和重用经验,导致重复错误。为了解决这一问题,本文提出了 extit{闭环记忆优化}框架,通过 extit{验证的下游影响}来定义记忆效用,作为任务无关的评估基准和优化信号。实验结果表明,该框架在多个设置中显著提升了SE代理的成功率和解决效率,同时降低了计算成本。
🔬 方法详解
问题定义:现有的软件工程代理在处理任务时无法有效保留和重用经验,导致其在不同任务中重复构建上下文并犯相似错误。即使有记忆支持,缺乏系统的、任务无关的记忆效用评估,使得代理的性能难以严格评估和推广。
核心思路:本文提出的闭环记忆优化框架通过验证的下游影响来定义记忆效用,旨在为软件工程代理提供一个系统的、可评估的记忆机制,从而提升其在不同任务中的表现。
技术框架:该框架包括两个主要模块:记忆增强模块和效用评估模块。记忆增强模块负责存储和管理代理的经验,而效用评估模块则通过验证的下游影响来评估记忆的有效性。
关键创新:最重要的创新在于将记忆效用定义为验证的下游影响,使其成为任务无关的评估基准和优化信号。这一设计使得记忆的评估和优化变得更加系统化和可操作。
关键设计:在实现过程中,采用了无注释的优化信号来引导记忆的存储和使用,确保了框架的灵活性和适应性。同时,设计了高效的存储机制以降低计算成本。
📊 实验亮点
实验结果表明,闭环记忆优化框架在多个设置中均表现出色,成功率提升了5.25%,解决效率提升了4.63%,同时计算成本降低了9.79%。这些结果表明该框架在实际应用中的有效性和潜力。
🎯 应用场景
该研究的潜在应用领域包括软件开发工具、自动化测试和代码审查等。通过提升软件工程代理的记忆能力,可以显著提高开发效率和代码质量,降低开发成本,推动软件工程领域的智能化进程。
📄 摘要(原文)
Large language models (LLMs) have enabled powerful software engineering (SE) agents capable of navigating complex codebases and resolving real-world issues. However, these agents remain fundamentally episodic: they fail to retain, refine, and reuse experiences across tasks, repeatedly reconstructing context from scratch and reproducing similar mistakes. Even with memory support, they offer no remedy for the absence of a principled, task-agnostic \textit{memory utility}, making them difficult to evaluate rigorously or generalize across agents and settings. To tackle these limitations, we introduce \ours, a closed-loop framework for memory augmentation in SE agents. \ours grounds memory utility in \textit{validated downstream impact}, establishing utility as both a task-agnostic \textbf{evaluation benchmark} and an annotation-free \textbf{optimization signal}. Through complementary evaluation on \textit{single-episode} and \textit{cross-episode} memory augmentation, results demonstrate that \ours consistently improves SE agents across settings, achieving absolute gains of up to $\uparrow5.25\%$ in success rate and $\uparrow4.63\%$ in resolve efficiency, while substantially reducing computational cost by $\geq9.79\%$. Our project page: \href{https://xhguo7.github.io/MemOp/}{https://xhguo7.github.io/MemOp/}.