Efficient Language-instructed Skill Acquisition via Reward-Policy Co-Evolution
作者: Changxin Huang, Yanbin Chang, Junfan Lin, Junyang Liang, Runhao Zeng, Jianqiang Li
分类: cs.RO, cs.LG
发布日期: 2024-12-18
备注: 14 pages, 5 figures, published to AAAI2025
💡 一句话要点
提出基于奖励-策略协同进化的语言指令技能高效学习框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人技能学习 强化学习 奖励函数设计 大型语言模型 协同进化
📋 核心要点
- 现有强化学习方法在机器人技能学习中依赖人工设计的奖励函数,在高维任务中设计困难。
- 提出奖励-策略协同进化框架,利用大型语言模型动态生成奖励函数,并与策略学习相互促进。
- 实验表明,该方法在多种高维机器人技能学习任务中,数据效率更高,性能提升显著。
📝 摘要(中文)
具身智能自主探索和解决任务的能力至关重要,而强化学习方法在很大程度上减轻了人工干预。然而,由于关节和任务之间关系复杂,为真实世界任务设计奖励函数极具挑战,尤其是在高维机器人控制中。最近,大型语言模型(LLMs)的进步使得自动奖励函数设计成为可能。然而,现有方法通过从头开始重新训练策略来评估奖励函数,对奖励函数提出了过高的要求,期望其在整个策略改进过程中都有效。我们提出了一种更实用的机器人自主策略,专注于使用依赖于策略的奖励函数来改进现有策略,而不是使用通用的奖励函数。为此,我们提出了一种新颖的奖励-策略协同进化框架,其中奖励函数和学习到的策略受益于彼此的渐进式改进,从而实现更高效和更高性能的技能获取。具体而言,奖励进化过程将机器人先前最佳奖励函数、任务和环境描述转换为文本输入,并使用这些输入查询LLM以生成动态数量的奖励函数候选者,确保每次进化都能持续改进。对于策略进化,我们的方法通过混合历史最优策略和随机策略来生成新的策略种群。通过改进的贝叶斯优化,我们的方法能够高效且稳健地识别出最有能力和可塑性的奖励-策略组合,然后进入下一轮协同进化。尽管使用的数据较少,但我们的方法在各种高维机器人技能学习任务中表现出平均95.3%的标准化改进。
🔬 方法详解
问题定义:现有基于强化学习的机器人技能学习方法,通常需要人工设计奖励函数。在高维机器人控制任务中,由于关节和任务之间的复杂关系,设计有效的奖励函数非常困难,耗时且需要专业知识。此外,直接使用大型语言模型生成奖励函数,并从头训练策略,对奖励函数的泛化能力要求过高,效率较低。
核心思路:论文的核心思路是奖励函数和策略不是独立设计的,而是协同进化的。奖励函数的设计依赖于当前的策略,并针对策略的不足进行改进。同时,策略的改进也依赖于奖励函数的引导,从而形成一个正反馈循环,加速学习过程。这种协同进化避免了对奖励函数提出过高的泛化要求,降低了学习难度。
技术框架:整体框架包含奖励进化和策略进化两个主要阶段,循环迭代。在奖励进化阶段,利用大型语言模型,将机器人之前的最佳奖励函数、任务描述和环境信息作为输入,生成多个奖励函数候选者。在策略进化阶段,通过混合历史最优策略和随机策略,生成新的策略种群。然后,使用改进的贝叶斯优化方法,选择最优的奖励-策略组合,用于下一轮的协同进化。
关键创新:最重要的创新点在于奖励函数和策略的协同进化机制。与传统的独立设计方法不同,该方法将奖励函数和策略的学习过程紧密结合,利用彼此的反馈信息进行改进,从而提高了学习效率和性能。此外,利用大型语言模型动态生成奖励函数候选者,避免了人工设计的繁琐和主观性。
关键设计:奖励进化阶段,使用Prompt Engineering技术,设计合适的Prompt,引导大型语言模型生成高质量的奖励函数候选者。策略进化阶段,使用混合策略生成新的策略种群,保证了探索的多样性。改进的贝叶斯优化方法,能够高效地搜索最优的奖励-策略组合。具体的损失函数和网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多种高维机器人技能学习任务中,相比于现有方法,取得了显著的性能提升。具体而言,该方法在各种任务中实现了平均95.3%的标准化改进。此外,该方法还具有更高的数据效率,能够在更少的数据量下学习到高质量的策略。
🎯 应用场景
该研究成果可应用于各种机器人技能学习任务,尤其是在高维、复杂环境中。例如,可以用于训练机器人完成复杂的装配任务、操作任务或导航任务。该方法能够降低人工干预,提高机器人的自主学习能力,具有重要的实际应用价值和商业前景。
📄 摘要(原文)
The ability to autonomously explore and resolve tasks with minimal human guidance is crucial for the self-development of embodied intelligence. Although reinforcement learning methods can largely ease human effort, it's challenging to design reward functions for real-world tasks, especially for high-dimensional robotic control, due to complex relationships among joints and tasks. Recent advancements large language models (LLMs) enable automatic reward function design. However, approaches evaluate reward functions by re-training policies from scratch placing an undue burden on the reward function, expecting it to be effective throughout the whole policy improvement process. We argue for a more practical strategy in robotic autonomy, focusing on refining existing policies with policy-dependent reward functions rather than a universal one. To this end, we propose a novel reward-policy co-evolution framework where the reward function and the learned policy benefit from each other's progressive on-the-fly improvements, resulting in more efficient and higher-performing skill acquisition. Specifically, the reward evolution process translates the robot's previous best reward function, descriptions of tasks and environment into text inputs. These inputs are used to query LLMs to generate a dynamic amount of reward function candidates, ensuring continuous improvement at each round of evolution. For policy evolution, our method generates new policy populations by hybridizing historically optimal and random policies. Through an improved Bayesian optimization, our approach efficiently and robustly identifies the most capable and plastic reward-policy combination, which then proceeds to the next round of co-evolution. Despite using less data, our approach demonstrates an average normalized improvement of 95.3% across various high-dimensional robotic skill learning tasks.