Don't Just Follow MLLM Plans: Robust and Efficient Planning for Open-world Agents
作者: Seungjoon Lee, Suhwan Kim, Minhyeon Oh, Youngsik Yoon, Jungseul Ok
分类: cs.LG, cs.AI
发布日期: 2025-05-30
💡 一句话要点
提出REPOA框架,解决开放世界智能体鲁棒高效规划问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放世界 智能体规划 大语言模型 强化学习 鲁棒性 效率 自适应学习
📋 核心要点
- 现有方法依赖LLM进行规划,但LLM的知识缺陷和环境假设限制了智能体在开放世界的表现。
- REPOA框架通过自适应学习、故障感知记忆和难度探索,提升智能体在开放环境中的规划能力。
- 实验表明,REPOA在开放世界游戏中能成功获取复杂物品,超越了现有方法的性能。
📝 摘要(中文)
本文旨在解决开放、交互环境中智能体掌握复杂多步任务的难题。现有方法依赖大语言模型(LLM)进行规划,但常受限于LLM内部知识的不足或对环境的不切实际假设。虽然已有工作尝试学习规划知识,但仍依赖外部知识或不切实际的设置。本文提出Robust and Efficient Planning for Open-world Agents (REPOA)框架,通过自适应依赖学习、细粒度故障感知操作记忆增强对不准确知识的鲁棒性,并利用基于难度的探索提高学习效率。在两个开放世界测试平台上的评估表明,REPOA能够成功获取先前方法无法获得的后期游戏物品,展示了其鲁棒性和高效性。
🔬 方法详解
问题定义:现有方法在开放世界环境中进行规划时,严重依赖LLM的内部知识,而这些知识可能不准确或不完整。此外,现有方法通常对环境做出不切实际的假设,导致在真实场景中表现不佳。即使是学习规划知识的方法,也仍然依赖外部知识或在非现实的设置下进行,无法从零开始在真实环境中学习。因此,如何使智能体在开放世界中鲁棒且高效地学习规划知识是一个关键问题。
核心思路:REPOA的核心思路是通过三个关键组件来解决LLM知识不准确和学习效率低下的问题。首先,自适应依赖学习能够动态地调整对LLM知识的依赖程度,从而减轻不准确知识的影响。其次,细粒度故障感知操作记忆能够记录和利用操作失败的信息,从而避免重复犯错。最后,基于难度的探索能够优先探索更具挑战性的任务,从而提高学习效率。
技术框架:REPOA框架包含三个主要模块:自适应依赖学习模块、细粒度故障感知操作记忆模块和基于难度的探索模块。自适应依赖学习模块通过评估LLM知识的可靠性,动态调整对LLM的依赖程度。细粒度故障感知操作记忆模块记录操作的成功和失败信息,并用于指导后续的规划。基于难度的探索模块根据任务的难度调整探索策略,优先探索更具挑战性的任务。整体流程是智能体首先利用LLM生成初步计划,然后通过自适应依赖学习调整计划,接着执行计划并记录操作结果,最后利用故障感知操作记忆和基于难度的探索来改进后续的规划。
关键创新:REPOA的关键创新在于其三个核心组件的协同作用。自适应依赖学习能够减轻LLM知识不准确的影响,故障感知操作记忆能够避免重复犯错,基于难度的探索能够提高学习效率。与现有方法相比,REPOA能够从零开始在真实环境中学习规划知识,并且具有更强的鲁棒性和更高的效率。
关键设计:自适应依赖学习模块使用贝叶斯方法来评估LLM知识的可靠性,并根据可靠性调整对LLM的依赖程度。细粒度故障感知操作记忆模块使用分层结构来存储操作信息,并使用强化学习来学习如何利用这些信息。基于难度的探索模块使用信息增益来衡量任务的难度,并根据难度调整探索策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,REPOA在两个开放世界测试平台上均取得了显著的性能提升。具体来说,REPOA能够成功获取先前方法无法获得的后期游戏物品,例如钻石盔甲和末影之眼。与基线方法相比,REPOA在任务成功率和学习效率方面均有显著提升,证明了其鲁棒性和高效性。
🎯 应用场景
REPOA框架可应用于各种需要智能体在开放、交互环境中进行复杂任务规划的领域,例如游戏AI、机器人导航、自动化任务执行等。该研究有助于开发更智能、更自主的智能体,提高其在复杂环境中的适应性和解决问题的能力,具有广泛的应用前景。
📄 摘要(原文)
Developing autonomous agents capable of mastering complex, multi-step tasks in unpredictable, interactive environments presents a significant challenge. While Large Language Models (LLMs) offer promise for planning, existing approaches often rely on problematic internal knowledge or make unrealistic environmental assumptions. Although recent work explores learning planning knowledge, they still retain limitations due to partial reliance on external knowledge or impractical setups. Indeed, prior research has largely overlooked developing agents capable of acquiring planning knowledge from scratch, directly in realistic settings. While realizing this capability is necessary, it presents significant challenges, primarily achieving robustness given the substantial risk of incorporating LLMs' inaccurate knowledge. Moreover, efficiency is crucial for practicality as learning can demand prohibitive exploration. In response, we introduce Robust and Efficient Planning for Open-world Agents (REPOA), a novel framework designed to tackle these issues. REPOA features three key components: adaptive dependency learning and fine-grained failure-aware operation memory to enhance robustness to knowledge inaccuracies, and difficulty-based exploration to improve learning efficiency. Our evaluation in two established open-world testbeds demonstrates REPOA's robust and efficient planning, showcasing its capability to successfully obtain challenging late-game items that were beyond the reach of prior approaches.