Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents
作者: Karina Zainullina, Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Daria Litvintseva, Simon Karasik, Filipp Fisin, Sergei Skvortsov, Maksim Nekrashevich, Anton Shevtsov, Boris Yangel
分类: cs.SE, cs.CL
发布日期: 2025-05-19
备注: ICML
💡 一句话要点
提出引导搜索策略以解决非可序列化环境中的软件工程问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 引导搜索 非可序列化环境 软件工程 强化学习 动作价值函数 性能提升
📋 核心要点
- 现有方法在非可序列化环境中难以有效保存和恢复中间状态,导致性能不稳定。
- 论文提出了一步前瞻和轨迹选择两种搜索策略,通过学习的动作价值函数进行引导,适用于非可序列化环境。
- 在SWE-bench Verified基准测试中,所提方法使Qwen-72B模型的成功率提升至40.8%,并可迁移至GPT-4o等封闭模型。
📝 摘要(中文)
大型语言模型(LLMs)在复杂的多步骤任务中取得了显著成果,但在多次解决尝试中往往难以保持一致的性能。为缩小平均性能与最佳性能之间的差距,本文提出了引导测试时搜索的方法,探索多个解决路径以识别最有前景的方案。针对非可序列化的强化学习环境(如Docker容器),本文研究了两种互补的搜索策略:一步前瞻和轨迹选择,均由学习的动作价值函数估计器引导。在SWE-bench Verified基准测试中,这些方法使得经过微调的Qwen-72B模型的平均成功率翻倍,达到了40.8%,成为开放权重模型的新状态下的最佳表现。此外,这些技术也可转移至更先进的封闭模型,GPT-4o同样取得了类似的提升。
🔬 方法详解
问题定义:本文旨在解决在非可序列化强化学习环境中,现有搜索技术(如MCTS)无法有效应用的问题。这类环境中,无法轻易保存和恢复中间状态,导致模型在多次尝试中的表现不一致。
核心思路:论文提出的核心思路是通过引导搜索策略来探索多个解决路径,利用一步前瞻和轨迹选择来提高模型的成功率。这种设计旨在通过学习的动作价值函数来优化搜索过程,从而找到最有潜力的解决方案。
技术框架:整体架构包括两个主要模块:首先是动作价值函数估计器,用于评估不同动作的潜在价值;其次是搜索策略模块,实施一步前瞻和轨迹选择,动态选择最优路径。
关键创新:最重要的技术创新在于提出了适用于非可序列化环境的搜索策略,这与传统方法的本质区别在于能够在无法保存中间状态的情况下,依然有效地探索解决方案。
关键设计:关键设计包括动作价值函数的训练过程、搜索策略的具体实现细节,以及在不同模型(如Qwen-72B和GPT-4o)上的适配性调整。
🖼️ 关键图片
📊 实验亮点
实验结果显示,所提出的引导搜索策略使得Qwen-72B模型的平均成功率从原有水平翻倍,达到了40.8%。此外,这些技术在更先进的封闭模型GPT-4o上也实现了类似的性能提升,展示了其广泛的适用性。
🎯 应用场景
该研究的潜在应用领域包括软件工程中的自动化工具开发、智能编程助手以及复杂系统的优化。通过提高模型在非可序列化环境中的表现,能够显著提升软件开发效率和质量,具有重要的实际价值和广泛的未来影响。
📄 摘要(原文)
Large language models (LLMs) have recently achieved remarkable results in complex multi-step tasks, such as mathematical reasoning and agentic software engineering. However, they often struggle to maintain consistent performance across multiple solution attempts. One effective approach to narrow the gap between average-case and best-case performance is guided test-time search, which explores multiple solution paths to identify the most promising one. Unfortunately, effective search techniques (e.g. MCTS) are often unsuitable for non-serializable RL environments, such as Docker containers, where intermediate environment states cannot be easily saved and restored. We investigate two complementary search strategies applicable to such environments: 1-step lookahead and trajectory selection, both guided by a learned action-value function estimator. On the SWE-bench Verified benchmark, a key testbed for agentic software engineering, we find these methods to double the average success rate of a fine-tuned Qwen-72B model, achieving 40.8%, the new state-of-the-art for open-weights models. Additionally, we show that these techniques are transferable to more advanced closed models, yielding similar improvements with GPT-4o.