LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble

📄 arXiv: 2411.17135v1 📥 PDF

作者: Yujeong Lee, Sangwoo Shin, Wei-Jin Park, Honguk Woo

分类: cs.AI, cs.CL

发布日期: 2024-11-26

备注: Findings of EMNLP-2024 Camera Ready Version


💡 一句话要点

提出基于一致性引导奖励集成的离线强化学习方法,用于训练具身智能体。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 离线强化学习 大型语言模型 奖励集成 一致性学习

📋 核心要点

  1. 现有方法难以将LLM的知识有效迁移到具身智能体的具体环境领域中,导致奖励信号不准确。
  2. CoREN框架通过集成时空一致的奖励信号,自适应地学习领域相关的奖励函数,从而弥合LLM与环境之间的差距。
  3. 实验表明,CoREN在VirtualHome上显著优于其他离线RL方法,并能达到与大型LLM智能体相近的性能。

📝 摘要(中文)

本文探索利用大型语言模型(LLM)作为工具来辅助具身智能体的学习,而非直接将LLM作为智能体。具体而言,通过离线强化学习(RL)训练独立的智能体,并使用LLM为训练数据集中的个体动作提供密集的奖励反馈。为此,本文提出了一种一致性引导的奖励集成框架(CoREN),旨在解决LLM生成的估计与目标环境领域不一致的问题。该框架采用时空一致性奖励的自适应集成,以在训练数据集中推导出领域相关的奖励,从而实现具身智能体在不同环境领域中的有效离线学习。在VirtualHome基准测试上的实验表明,CoREN显著优于其他离线RL智能体,并且实现了与最先进的基于LLM的智能体(具有80亿参数)相当的性能,而CoREN的智能体策略网络仅有1.17亿参数,并且仅在训练中使用LLM。

🔬 方法详解

问题定义:现有方法直接使用LLM作为具身智能体,或简单地利用LLM生成奖励信号,但忽略了LLM的知识与具体环境领域之间的差异,导致奖励信号与环境不一致,影响智能体的学习效果。尤其是在离线强化学习中,高质量的奖励信号至关重要。

核心思路:本文的核心思路是利用LLM生成多个奖励信号,然后通过一致性约束来筛选和集成这些奖励信号,从而得到更可靠、更符合环境领域的奖励函数。这种方法旨在解决LLM知识与环境领域不一致的问题,提高离线强化学习的效果。

技术框架:CoREN框架包含以下主要模块:1) LLM奖励生成器:利用LLM为训练数据集中的每个动作生成多个奖励信号。2) 一致性评估器:评估不同奖励信号之间的时空一致性。3) 奖励集成器:根据一致性评估结果,自适应地集成不同的奖励信号,得到最终的奖励函数。4) 离线强化学习算法:使用集成的奖励函数训练具身智能体。

关键创新:CoREN的关键创新在于提出了一种基于一致性引导的奖励集成方法。与直接使用LLM生成的奖励信号不同,CoREN通过评估和集成多个奖励信号,有效地降低了LLM知识与环境领域不一致带来的负面影响。这种方法能够更好地利用LLM的知识,同时保证奖励信号的可靠性。

关键设计:在奖励集成器中,使用自适应权重来集成不同的奖励信号,权重的大小取决于奖励信号的一致性得分。一致性得分可以通过计算不同奖励信号之间的相关性或使用专门的网络进行预测得到。此外,还可以使用不同的离线强化学习算法来训练智能体,例如Behavior Cloning、CQL等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoREN在VirtualHome基准测试中显著优于其他离线RL智能体。CoREN的性能与具有80亿参数的先进LLM智能体相当,而CoREN的智能体策略网络仅有1.17亿参数。这表明CoREN能够有效地利用LLM的知识,并在参数效率方面具有优势。

🎯 应用场景

该研究成果可应用于机器人导航、家庭服务机器人、游戏AI等领域。通过利用LLM的知识,可以降低具身智能体学习的成本,提高智能体的泛化能力。未来,该方法可以扩展到更复杂的环境和任务中,例如自动驾驶、医疗机器人等。

📄 摘要(原文)

Employing large language models (LLMs) to enable embodied agents has become popular, yet it presents several limitations in practice. In this work, rather than using LLMs directly as agents, we explore their use as tools for embodied agent learning. Specifically, to train separate agents via offline reinforcement learning (RL), an LLM is used to provide dense reward feedback on individual actions in training datasets. In doing so, we present a consistency-guided reward ensemble framework (CoREN), designed for tackling difficulties in grounding LLM-generated estimates to the target environment domain. The framework employs an adaptive ensemble of spatio-temporally consistent rewards to derive domain-grounded rewards in the training datasets, thus enabling effective offline learning of embodied agents in different environment domains. Experiments with the VirtualHome benchmark demonstrate that CoREN significantly outperforms other offline RL agents, and it also achieves comparable performance to state-of-the-art LLM-based agents with 8B parameters, despite CoREN having only 117M parameters for the agent policy network and using LLMs only for training.