Understanding the Challenges in Iterative Generative Optimization with LLMs
作者: Allen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri, Max Piasevoli, Ryan Rong, YuCheng Yuan, Prerit Choudhary, Shannon Xiao, Rasool Fakoor, Adith Swaminathan, Ching-An Cheng
分类: cs.LG, cs.AI
发布日期: 2026-03-25
备注: 36 pages, 17 figures
💡 一句话要点
揭示LLM迭代生成优化中的挑战,并提供实际应用指导
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式优化 大型语言模型 迭代学习 设计选择 案例研究
📋 核心要点
- 现有生成式优化方法依赖LLM迭代改进,但工程实践中面临脆弱性问题,自动化优化使用率低。
- 论文核心在于揭示了在构建LLM学习循环时,起始工件、信用范围和批量大小等“隐藏”设计选择的重要性。
- 通过在MLAgentBench、Atari和BigBench Extra Hard等任务上的实验,验证了这些设计选择对优化结果的显著影响。
📝 摘要(中文)
生成式优化利用大型语言模型(LLM)通过执行反馈迭代改进工件(如代码、工作流或提示)。这是一种构建自我改进代理的有前景的方法,但实践中仍然很脆弱:尽管有积极的研究,但只有9%的受调查代理使用了任何自动化优化。我们认为,这种脆弱性产生的原因是,为了建立一个学习循环,工程师必须做出“隐藏的”设计选择:优化器可以编辑什么,以及在每次更新时提供什么样的“正确”学习证据?我们研究了影响大多数应用的三个因素:起始工件、执行轨迹的信用范围以及将试验和错误批量处理为学习证据。通过MLAgentBench、Atari和BigBench Extra Hard中的案例研究,我们发现这些设计决策可以决定生成式优化是否成功,但它们在先前的工作中很少被明确说明。不同的起始工件决定了MLAgentBench中哪些解决方案是可达的,截断的轨迹仍然可以改进Atari代理,并且更大的minibatch并不能单调地提高BBEH的泛化能力。我们得出结论,缺乏一种简单、通用的方法来跨领域设置学习循环是生产化和采用的主要障碍。我们为做出这些选择提供了实用指导。
🔬 方法详解
问题定义:现有基于LLM的生成式优化方法在实际应用中表现出脆弱性,难以稳定地提升工件质量。工程师在构建学习循环时,需要手动选择优化器可编辑的内容以及提供什么样的学习证据,这些“隐藏”的设计选择对最终结果影响很大,但缺乏系统性的研究和指导。现有方法未能充分考虑这些因素,导致优化效果不稳定,难以推广应用。
核心思路:论文的核心思路是深入研究影响生成式优化效果的关键设计选择,包括起始工件、信用范围和批量大小。通过案例研究,揭示这些选择对优化结果的非线性影响,并为工程师提供实用的指导,帮助他们更好地构建LLM学习循环。论文强调了在不同领域中,这些设计选择需要根据具体情况进行调整,不存在一种通用的最佳配置。
技术框架:论文采用案例研究的方法,在MLAgentBench、Atari和BigBench Extra Hard三个不同的任务上进行实验。对于每个任务,论文都系统地研究了起始工件、信用范围和批量大小对优化效果的影响。通过控制变量,分析不同设计选择对最终性能的影响,并总结出一些通用的规律和指导原则。
关键创新:论文最重要的创新在于明确指出了在LLM生成式优化中,存在一些“隐藏”的设计选择,这些选择对优化结果具有重要影响,但往往被忽视。论文通过实验证明了这些选择的重要性,并为工程师提供了实用的指导,帮助他们更好地构建LLM学习循环。这有助于提高生成式优化的稳定性和可应用性。
关键设计:论文的关键设计在于对起始工件、信用范围和批量大小这三个因素的系统性研究。具体来说: * 起始工件:研究不同的初始代码、工作流或提示对最终优化结果的影响。 * 信用范围:研究执行轨迹中,哪些部分的信息对优化器最有用,如何截断轨迹以提高效率。 * 批量大小:研究将多个试验和错误组合成一个batch进行学习,对泛化能力的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,不同的起始工件会影响MLAgentBench中可达到的最优解;截断的执行轨迹仍然可以改进Atari代理的性能;更大的minibatch并不总是能提高BigBench Extra Hard任务的泛化能力。这些发现强调了在不同任务中,需要根据具体情况调整设计选择。
🎯 应用场景
该研究成果可应用于代码生成、工作流优化、提示工程等领域,帮助开发者更有效地利用LLM进行迭代优化,构建更强大的AI Agent。通过理解和优化关键设计选择,可以显著提高生成式优化的稳定性和效率,加速相关技术的落地应用。
📄 摘要(原文)
Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.