FailureMem: A Failure-Aware Multimodal Framework for Autonomous Software Repair
作者: Ruize Ma, Yilei Jiang, Shilin Zhang, Zheng Ma, Yi Feng, Vincent Ng, Zhi Wang, Xiangyu Yue, Chuanyi Li, Lewei Lu
分类: cs.SE, cs.AI
发布日期: 2026-03-18
💡 一句话要点
FailureMem:面向自主软件修复的故障感知多模态框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态程序修复 自动软件修复 故障感知学习 视觉推理 大型语言模型 GUI修复 混合架构
📋 核心要点
- 现有MAPR方法工作流程僵化,限制了调试探索;视觉推理缺乏局部定位,且未能有效利用失败经验。
- FailureMem采用混合工作流程-代理架构,结合主动感知工具进行区域级视觉定位,并构建故障记忆库。
- 实验表明,FailureMem在SWE-bench Multimodal数据集上,问题解决率比GUIRepair提升了3.7%。
📝 摘要(中文)
多模态自动程序修复(MAPR)通过要求模型联合推理源代码、文本问题描述和视觉工件(如GUI截图)来扩展传统的程序修复。虽然最近基于LLM的修复系统已经显示出有希望的结果,但现有方法面临几个限制:僵化的工作流程管道限制了调试期间的探索,视觉推理通常在没有局部定位的情况下对整页截图执行,并且失败的修复尝试很少转化为可重用的知识。为了应对这些挑战,我们提出了FailureMem,一个多模态修复框架,它集成了三个关键机制:平衡结构化定位与灵活推理的混合工作流程-代理架构,支持区域级视觉接地的活动感知工具,以及将过去的修复尝试转化为可重用指导的故障记忆库。在SWE-bench Multimodal上的实验表明,FailureMem比GUIRepair的解决率提高了3.7%。
🔬 方法详解
问题定义:论文旨在解决多模态自动程序修复(MAPR)中存在的三个主要问题:一是现有方法的工作流程过于僵化,限制了调试过程中的探索;二是视觉推理缺乏局部定位能力,通常直接处理整页截图;三是未能有效利用失败的修复尝试,将其转化为可复用的知识。
核心思路:FailureMem的核心思路是通过构建一个故障感知的多模态框架,该框架能够更灵活地进行调试探索,实现更精确的视觉定位,并将失败的修复尝试转化为可复用的指导信息。通过这种方式,FailureMem旨在提高MAPR的修复成功率。
技术框架:FailureMem框架主要包含三个核心模块:1) 混合工作流程-代理架构:该架构结合了结构化的定位和灵活的推理,允许模型在调试过程中进行更自由的探索。2) 主动感知工具:这些工具能够实现区域级别的视觉定位,从而更精确地理解GUI截图中的相关信息。3) 故障记忆库:该模块用于存储和管理过去的修复尝试,并将失败的经验转化为可复用的指导信息。
关键创新:FailureMem的关键创新在于其将失败的修复尝试转化为可复用的知识。传统的MAPR方法通常忽略了失败的尝试,而FailureMem通过故障记忆库,能够从这些失败的尝试中学习,并将其用于指导未来的修复过程。此外,混合工作流程-代理架构和主动感知工具也提高了框架的灵活性和准确性。
关键设计:关于关键设计细节,论文摘要中并未详细说明具体的参数设置、损失函数或网络结构。但可以推测,故障记忆库的设计可能涉及到某种形式的知识图谱或向量数据库,用于存储和检索失败的修复尝试。主动感知工具可能采用了某种目标检测或分割模型,用于识别GUI截图中的关键区域。混合工作流程-代理架构的具体实现方式(例如,如何平衡结构化定位和灵活推理)也需要进一步研究论文全文才能了解。
🖼️ 关键图片
📊 实验亮点
FailureMem在SWE-bench Multimodal数据集上进行了实验,结果表明其性能优于现有的GUIRepair方法,问题解决率提高了3.7%。这一结果表明,FailureMem提出的混合工作流程-代理架构、主动感知工具和故障记忆库等机制能够有效提高多模态自动程序修复的性能。
🎯 应用场景
FailureMem框架可应用于各种软件开发和维护场景,例如自动化测试、缺陷修复、代码审查等。通过提高自动程序修复的成功率,该研究可以显著降低软件维护成本,提高软件质量,并加速软件开发周期。未来,该技术有望应用于更复杂的软件系统和更广泛的编程语言。
📄 摘要(原文)
Multimodal Automated Program Repair (MAPR) extends traditional program repair by requiring models to jointly reason over source code, textual issue descriptions, and visual artifacts such as GUI screenshots. While recent LLM-based repair systems have shown promising results, existing approaches face several limitations: rigid workflow pipelines restrict exploration during debugging, visual reasoning is often performed over full-page screenshots without localized grounding, and failed repair attempts are rarely transformed into reusable knowledge. To address these challenges, we propose FailureMem, a multimodal repair framework that integrates three key mechanisms: a hybrid workflow-agent architecture that balances structured localization with flexible reasoning, active perception tools that enable region-level visual grounding, and a Failure Memory Bank that converts past repair attempts into reusable guidance. Experiments on SWE-bench Multimodal demonstrate FailureMem improves the resolved rate over GUIRepair by 3.7%.