LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence
作者: Zhuoling Li, Xiaogang Xu, Zhenhua Xu, SerNam Lim, Hengshuang Zhao
分类: cs.CV
发布日期: 2024-05-27 (更新: 2025-02-05)
💡 一句话要点
提出LARM:用于长时程具身智能的大型自回归模型,解决奖励消失问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 大型语言模型 强化学习 自回归模型 长时程任务
📋 核心要点
- 现有RL智能体部署效率高但任务范围窄,大型LLM智能体泛化性强但计算资源需求巨大。
- LARM基于轻量级LLM直接输出动作,并引入LLM裁判解决长时程探索中的奖励消失问题。
- LARM成功完成Minecraft中获取附魔钻石装备等复杂任务,决策链长度超越现有方法。
📝 摘要(中文)
本文提出了一种名为LARM(Large Auto-Regressive Model)的大型自回归模型,用于长时程具身智能任务。与依赖强化学习(RL)或大型语言模型(LLM)的现有具身智能体不同,LARM结合了两者的优势,同时避免了它们的缺点。LARM基于一个轻量级的LLM(参数小于50亿),直接输出要执行的下一个动作,而不是文本。论文从数学上揭示了经典RL反馈在长时程具身探索中会消失的现象,并引入了一个基于大型LLM的裁判来处理LARM训练过程中的奖励消失问题。通过这种方式,LARM能够在没有人为干预的情况下完成各种开放世界任务。特别地,LARM成功地在Minecraft中获得了附魔钻石装备,这比以前最好的方法需要更长的决策链。
🔬 方法详解
问题定义:现有具身智能体面临着两个主要问题:基于强化学习的智能体虽然部署效率高,但只能执行非常有限的任务;而基于大型语言模型的智能体虽然具有很强的泛化能力,但需要巨大的计算资源。此外,在长时程任务中,传统的强化学习方法会遇到奖励消失的问题,使得智能体难以学习到有效的策略。
核心思路:本文的核心思路是结合强化学习和大型语言模型的优点,同时避免它们的缺点。具体来说,本文提出了一个名为LARM的大型自回归模型,它基于一个轻量级的LLM,并直接输出要执行的动作,而不是文本。为了解决长时程任务中的奖励消失问题,本文引入了一个基于大型LLM的裁判,用于在训练过程中提供额外的反馈。
技术框架:LARM的整体框架包括三个主要组成部分:1)一个轻量级的LLM,用于生成动作;2)一个强化学习模块,用于训练LLM;3)一个基于大型LLM的裁判,用于提供额外的反馈。在训练过程中,LLM首先根据当前的环境状态生成一个动作,然后执行该动作并获得一个奖励。强化学习模块根据奖励更新LLM的参数。如果奖励消失,裁判会提供额外的反馈,帮助LLM学习到有效的策略。
关键创新:本文最重要的技术创新点是引入了基于大型LLM的裁判来解决长时程任务中的奖励消失问题。与传统的强化学习方法不同,本文的方法不需要人工设计奖励函数,而是利用大型LLM的知识来自动生成反馈。这使得智能体能够学习到更加复杂的策略,并完成更加困难的任务。
关键设计:LARM的关键设计包括以下几个方面:1)使用一个轻量级的LLM作为动作生成器,以降低计算成本;2)使用强化学习来训练LLM,以提高其性能;3)使用一个基于大型LLM的裁判来提供额外的反馈,以解决奖励消失问题;4)设计一个合适的损失函数,以平衡强化学习和裁判的反馈。
🖼️ 关键图片
📊 实验亮点
LARM在Minecraft游戏中取得了显著的成果,成功地获取了附魔钻石装备。这一任务需要智能体执行比现有方法更长的决策链。实验结果表明,LARM能够有效地解决长时程任务中的奖励消失问题,并学习到复杂的策略。LARM的性能明显优于现有的强化学习方法。
🎯 应用场景
LARM具有广泛的应用前景,例如机器人控制、游戏AI、自动驾驶等。它可以用于开发能够在复杂环境中自主完成任务的智能体,例如在仓库中拣选货物、在城市中导航、在游戏中与玩家互动等。LARM的成功表明,结合强化学习和大型语言模型是开发通用人工智能的一条有希望的途径。
📄 摘要(原文)
Recent embodied agents are primarily built based on reinforcement learning (RL) or large language models (LLMs). Among them, RL agents are efficient for deployment but only perform very few tasks. By contrast, giant LLM agents (often more than 1000B parameters) present strong generalization while demanding enormous computing resources. In this work, we combine their advantages while avoiding the drawbacks by conducting the proposed referee RL on our developed large auto-regressive model (LARM). Specifically, LARM is built upon a lightweight LLM (fewer than 5B parameters) and directly outputs the next action to execute rather than text. We mathematically reveal that classic RL feedbacks vanish in long-horizon embodied exploration and introduce a giant LLM based referee to handle this reward vanishment during training LARM. In this way, LARM learns to complete diverse open-world tasks without human intervention. Especially, LARM successfully harvests enchanted diamond equipment in Minecraft, which demands significantly longer decision-making chains than the highest achievements of prior best methods.