Learning Hierarchical Domain Models Through Environment-Grounded Interaction

📄 arXiv: 2505.13497v3 📥 PDF

作者: Claudius Kienle, Benjamin Alt, Oleg Arenz, Jan Peters

分类: cs.RO, cs.AI

发布日期: 2025-05-15 (更新: 2025-10-01)


💡 一句话要点

提出LODGE框架以解决开放世界任务建模问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 领域模型 自主学习 层次化抽象 环境交互 机器人技术 任务规划 大型语言模型

📋 核心要点

  1. 现有方法依赖于单一的通用领域模型,无法有效应对开放世界环境中的多样任务,导致高错误率和低适用性。
  2. 本文提出的LODGE框架通过层次化抽象和自动化仿真,能够实时生成适合特定任务的领域模型,减少对人类反馈的依赖。
  3. 在国际规划竞赛和机器人组装领域的实验中,LODGE显著提高了领域模型的准确性和任务成功率,且环境交互需求极低。

📝 摘要(中文)

领域模型使自主代理能够通过生成可解释的计划来解决长时间跨度的任务。然而,在开放世界环境中,单一的通用领域模型无法捕捉任务的多样性,因此代理必须实时生成适合特定任务的模型。大型语言模型(LLMs)能够生成这些领域,但由于高错误率限制了其适用性。为此,本文提出了LODGE框架,通过层次化抽象和自动化仿真,从LLMs和环境中学习自主领域。LODGE能够识别并纠正抽象层之间以及模型与环境之间的不一致性。实验结果表明,LODGE在准确性和任务成功率上优于现有方法,且所需的环境交互和人类反馈极少。

🔬 方法详解

问题定义:本文旨在解决开放世界环境中,单一领域模型无法捕捉多样任务的问题。现有方法通常依赖于大量人类反馈或先验知识,限制了自主部署的能力。

核心思路:LODGE框架通过层次化抽象和自动化仿真,实时生成任务特定的领域模型,能够识别并纠正模型与环境之间的不一致性,从而提高模型的准确性和适用性。

技术框架:LODGE的整体架构包括多个模块:首先是环境感知模块,通过与环境交互获取数据;其次是层次化抽象模块,生成高层次的领域模型;最后是自动化仿真模块,用于验证和纠正模型的准确性。

关键创新:LODGE的主要创新在于其层次化的领域学习方法,能够在无需人类反馈的情况下,自动生成和优化领域模型。这一方法与传统依赖人类反馈的模型构建方式本质上不同。

关键设计:LODGE设计了高效的抽象层次结构,采用了适应性损失函数以优化模型的学习过程,并结合低级可执行技能,确保模型的实用性和准确性。通过这些设计,LODGE能够在较少的环境交互中实现高效学习。

📊 实验亮点

实验结果表明,LODGE在两个国际规划竞赛领域和一个机器人组装领域中,生成的领域模型准确性显著提高,任务成功率也高于现有方法,且所需的环境交互次数大幅减少,几乎不需要人类反馈或示范。

🎯 应用场景

该研究的潜在应用领域包括自主机器人、智能制造和复杂任务规划等。通过提高领域模型的准确性和适用性,LODGE框架能够在动态和不确定的环境中实现更高效的任务执行,具有重要的实际价值和未来影响。

📄 摘要(原文)

Domain models enable autonomous agents to solve long-horizon tasks by producing interpretable plans. However, in open-world environments, a single general domain model cannot capture the variety of tasks, so agents must generate suitable task-specific models on the fly. Large Language Models (LLMs), with their implicit common knowledge, can generate such domains, but suffer from high error rates that limit their applicability. Hence, related work relies on extensive human feed-back or prior knowledge, which undermines autonomous, open-world deployment. In this work, we propose LODGE, a framework for autonomous domain learning from LLMs and environment grounding. LODGE builds on hierarchical abstractions and automated simulations to identify and correct inconsistencies between abstraction layers and between the model and environment. Our framework is task-agnostic, as it generates predicates, operators, and their preconditions and effects, while only assuming access to a simulator and a set of generic, executable low-level skills. Experiments on two International Planning Competition ( IPC) domains and a robotic assembly domain show that LODGE yields more accurate domain models and higher task success than existing methods, requiring remarkably few environment interactions and no human feedback or demonstrations.