Learning Reward for Robot Skills Using Large Language Models via Self-Alignment
作者: Yuwei Zeng, Yao Mu, Lin Shao
分类: cs.RO, cs.AI
发布日期: 2024-05-12 (更新: 2024-05-16)
备注: ICML 2024
💡 一句话要点
提出基于自对齐的LLM奖励函数学习方法,提升机器人技能学习效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人技能学习 奖励函数学习 大型语言模型 自对齐 强化学习
📋 核心要点
- 现有机器人技能学习方法依赖人工设计的奖励函数,耗时且难以泛化,利用LLM蕴含的知识是潜在的解决方案。
- 该方法利用LLM生成奖励函数的初始特征和参数化形式,并通过自对齐过程迭代优化,无需人工干预。
- 实验表明,该方法在多个任务中提升了机器人技能学习的效率和效果,并降低了LLM的使用成本。
📝 摘要(中文)
奖励函数学习是赋予机器人广泛技能的关键瓶颈。大型语言模型(LLM)蕴含着与任务相关的宝贵知识,有望辅助奖励函数的学习。然而,直接利用LLM生成的奖励函数可能不够精确,需要结合环境信息进行进一步修正。本文提出了一种在无人干预下更高效地学习奖励函数的方法。该方法包含两个组成部分:首先,利用LLM提出奖励函数的特征和参数化形式;然后,通过迭代的自对齐过程更新参数。具体而言,该过程旨在最小化LLM和学习到的奖励函数之间基于执行反馈的排序不一致性。在两个仿真环境中的9个任务上验证了该方法,结果表明,该方法在训练效果和效率上均有持续改进,同时相比于基于突变的方法,显著减少了GPT token的消耗。
🔬 方法详解
问题定义:论文旨在解决机器人技能学习中奖励函数设计困难的问题。现有方法通常依赖人工设计,需要大量专家知识和手动调整,难以泛化到新的任务和环境。直接使用LLM生成的奖励函数可能不够精确,需要与环境交互进行修正。
核心思路:论文的核心思路是利用LLM的先验知识生成奖励函数的初始形式,然后通过自对齐过程,根据机器人在环境中的执行反馈,迭代优化奖励函数的参数,使其与LLM的排序偏好保持一致。这样可以在无人干预的情况下,高效地学习到有效的奖励函数。
技术框架:该方法包含两个主要阶段:1) LLM奖励函数生成阶段:利用LLM生成奖励函数的特征和参数化形式。具体来说,给定任务描述,LLM会输出一组可能影响任务完成的特征,以及这些特征的组合方式(例如线性组合)。2) 自对齐优化阶段:通过迭代优化奖励函数的参数,使其与LLM的排序偏好保持一致。具体来说,机器人在环境中执行策略,收集执行轨迹,然后根据LLM和当前奖励函数对轨迹进行排序,计算排序不一致性损失,并使用梯度下降法更新奖励函数参数。
关键创新:该方法最重要的创新点在于提出了一个基于自对齐的奖励函数学习框架,无需人工干预即可利用LLM的知识来指导机器人技能学习。与传统的基于突变的方法相比,该方法能够更有效地利用LLM的知识,减少LLM的调用次数,并提高学习效率。
关键设计:在LLM奖励函数生成阶段,使用了prompt工程来引导LLM生成高质量的奖励函数特征和参数化形式。在自对齐优化阶段,使用了排序损失函数来衡量LLM和学习到的奖励函数之间的排序不一致性。具体来说,使用了pairwise ranking loss,鼓励学习到的奖励函数对LLM认为更好的轨迹给予更高的奖励。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在9个不同的机器人技能学习任务中均取得了显著的性能提升。与基线方法相比,该方法在训练效率和效果上均有持续改进,同时显著减少了GPT token的消耗。例如,在某个任务中,该方法可以将学习时间缩短50%,同时将成功率提高20%。
🎯 应用场景
该研究成果可应用于各种机器人技能学习场景,例如家庭服务机器人、工业机器人、自动驾驶等。通过利用LLM的知识,可以降低机器人技能学习的成本,提高机器人的智能化水平,使其能够更好地适应复杂多变的环境。
📄 摘要(原文)
Learning reward functions remains the bottleneck to equip a robot with a broad repertoire of skills. Large Language Models (LLM) contain valuable task-related knowledge that can potentially aid in the learning of reward functions. However, the proposed reward function can be imprecise, thus ineffective which requires to be further grounded with environment information. We proposed a method to learn rewards more efficiently in the absence of humans. Our approach consists of two components: We first use the LLM to propose features and parameterization of the reward, then update the parameters through an iterative self-alignment process. In particular, the process minimizes the ranking inconsistency between the LLM and the learnt reward functions based on the execution feedback. The method was validated on 9 tasks across 2 simulation environments. It demonstrates a consistent improvement over training efficacy and efficiency, meanwhile consuming significantly fewer GPT tokens compared to the alternative mutation-based method.