Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning

📄 arXiv: 2502.03717v2 📥 PDF

作者: Jaden Clark, Joey Hejna, Dorsa Sadigh

分类: cs.RO, cs.AI

发布日期: 2025-02-06 (更新: 2025-03-31)

备注: 8 pages 5 figures


💡 一句话要点

提出语言引导的偏好学习方法,高效生成拟人四足机器人行为

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 行为生成 偏好学习 大型语言模型 人机交互

📋 核心要点

  1. 现有四足机器人行为生成方法在效率和精度上存在不足,语言输入方法效率高但表达能力有限,偏好学习方法精度高但样本效率低。
  2. LGPL方法利用预训练LLM生成行为样本,并结合人类偏好反馈进行优化,从而提高样本效率和行为表现力。
  3. 实验结果表明,LGPL方法仅需少量人类反馈即可学习到高质量的四足机器人行为,优于现有方法。

📝 摘要(中文)

在社交环境中,富有表现力的机器人行为至关重要。近年来,学习型腿足运动控制器在机器人行为的动态性和通用性方面取得了显著进展。然而,在不同场景下,如何确定与不同用户交互的最佳行为仍然是一个挑战。现有方法要么依赖于自然语言输入,这种方法高效但分辨率较低,要么从人类偏好中学习,这种方法虽然分辨率高,但样本效率低。本文提出了一种新颖的方法,该方法利用预训练LLM生成的先验知识以及偏好学习的精确性。我们的方法,称为语言引导的偏好学习(LGPL),使用LLM生成初始行为样本,然后通过基于偏好的反馈来改进这些样本,从而学习与人类期望紧密相关的行为。我们的核心思想是,LLM可以指导偏好学习的采样过程,从而显著提高样本效率。我们证明,LGPL只需四个查询即可快速学习准确且富有表现力的行为,优于纯粹的语言参数化模型和传统的偏好学习方法。

🔬 方法详解

问题定义:论文旨在解决四足机器人行为生成中,如何高效地生成既符合人类期望又具有表现力的行为的问题。现有方法,如直接使用自然语言参数化行为,虽然效率高,但表达能力有限,难以捕捉细微的人类偏好。而传统的偏好学习方法,虽然可以学习到高精度的行为,但需要大量的样本,导致学习效率低下。

核心思路:论文的核心思路是利用预训练的大型语言模型(LLM)作为先验知识,指导偏好学习的采样过程。LLM能够理解人类语言描述,并生成合理的初始行为样本,从而缩小搜索空间,提高偏好学习的效率。通过人类对不同行为样本的偏好反馈,进一步优化LLM生成的行为,使其更符合人类的期望。

技术框架:LGPL方法包含两个主要阶段:1) LLM行为生成阶段:使用自然语言描述作为输入,LLM生成一系列初始的四足机器人行为样本。这些样本可以作为偏好学习的初始候选集。2) 偏好学习阶段:人类对LLM生成的行为样本进行偏好排序,LGPL方法利用这些偏好信息,更新行为策略,生成更符合人类期望的行为。这个过程迭代进行,直到学习到满意的行为。

关键创新:LGPL方法的关键创新在于将LLM的语言理解能力与偏好学习的精确性相结合。LLM提供了一个良好的初始行为分布,减少了偏好学习的探索空间,从而显著提高了样本效率。与传统的偏好学习方法相比,LGPL方法能够更快地学习到高质量的四足机器人行为。

关键设计:在LLM行为生成阶段,论文使用了预训练的LLM,并针对四足机器人行为生成任务进行了微调。在偏好学习阶段,论文使用了pairwise comparison的方法,即每次向人类展示两个行为样本,让人类选择更偏好的一个。偏好信息被用于更新行为策略,例如通过优化一个奖励函数,使得被人类偏好的行为获得更高的奖励值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LGPL方法在学习四足机器人行为方面具有显著优势。仅需4次人类偏好查询,LGPL即可学习到高质量的行为,优于纯语言参数化模型和传统偏好学习方法。实验还展示了LGPL方法生成各种富有表现力的行为的能力,例如跳跃、行走、转弯等。

🎯 应用场景

该研究成果可应用于各种需要四足机器人与人类进行交互的场景,例如:导盲犬、搜救机器人、陪伴机器人等。通过LGPL方法,可以快速定制出符合特定用户需求的机器人行为,提高机器人的可用性和用户体验。未来,该方法还可以扩展到其他类型的机器人,例如人形机器人、无人机等。

📄 摘要(原文)

Expressive robotic behavior is essential for the widespread acceptance of robots in social environments. Recent advancements in learned legged locomotion controllers have enabled more dynamic and versatile robot behaviors. However, determining the optimal behavior for interactions with different users across varied scenarios remains a challenge. Current methods either rely on natural language input, which is efficient but low-resolution, or learn from human preferences, which, although high-resolution, is sample inefficient. This paper introduces a novel approach that leverages priors generated by pre-trained LLMs alongside the precision of preference learning. Our method, termed Language-Guided Preference Learning (LGPL), uses LLMs to generate initial behavior samples, which are then refined through preference-based feedback to learn behaviors that closely align with human expectations. Our core insight is that LLMs can guide the sampling process for preference learning, leading to a substantial improvement in sample efficiency. We demonstrate that LGPL can quickly learn accurate and expressive behaviors with as few as four queries, outperforming both purely language-parameterized models and traditional preference learning approaches. Website with videos: https://lgpl-gaits.github.io/