GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill
作者: Jieming Cui, Tengyu Liu, Ziyu Meng, Jiale Yu, Ran Song, Wei Zhang, Yixin Zhu, Siyuan Huang
分类: cs.CV, cs.RO
发布日期: 2025-04-05 (更新: 2025-09-12)
💡 一句话要点
GROVE:一种广义奖励框架,用于学习开放词汇的物理技能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 开放词汇学习 物理技能 大型语言模型 视觉语言模型 奖励函数 机器人
📋 核心要点
- 现有强化学习方法在学习物理技能时,依赖手动设计的奖励函数,缺乏跨任务的可扩展性。
- GROVE利用LLM生成物理约束,VLM评估运动自然性,迭代优化奖励函数,实现开放词汇物理技能学习。
- 实验表明,GROVE在运动自然度和任务完成度上显著优于现有方法,并大幅提升了训练速度。
📝 摘要(中文)
本文提出GROVE,一种广义奖励框架,用于学习模拟智能体的开放词汇物理技能,无需手动设计奖励或特定任务的演示。核心思想是利用大型语言模型(LLM)和视觉语言模型(VLM)的互补优势——LLM生成精确的物理约束来捕捉任务需求,而VLM评估运动的语义和自然性。通过迭代设计,基于VLM的反馈不断完善LLM生成的约束,从而创建一个自我改进的奖励系统。为了弥合模拟和自然图像之间的领域差距,开发了Pose2CLIP,一种轻量级映射器,可将智能体姿势直接投影到语义特征空间,无需昂贵的渲染。大量实验表明GROVE的有效性,在不同的智能体和学习范式下,运动自然度提高了22.2%,任务完成得分提高了25.7%,同时训练速度提高了8.4倍。这些结果为模拟环境中可扩展的物理技能获取奠定了新的基础。
🔬 方法详解
问题定义:现有强化学习方法在学习开放词汇物理技能时面临挑战。手动设计的奖励函数难以泛化到不同的任务,而基于演示的方法难以超越训练分布。因此,需要一种能够自动生成奖励函数,并能够泛化到不同任务和环境的方法。
核心思路:GROVE的核心思路是利用大型语言模型(LLM)和视觉语言模型(VLM)的互补优势。LLM擅长生成精确的物理约束,捕捉任务需求;VLM擅长评估运动的语义和自然性。通过迭代设计,VLM的反馈不断完善LLM生成的约束,从而创建一个自我改进的奖励系统。
技术框架:GROVE框架包含以下主要模块:1) LLM约束生成器:根据任务描述,生成物理约束;2) VLM运动评估器:评估智能体运动的语义和自然性;3) 奖励函数生成器:结合LLM生成的约束和VLM的评估结果,生成奖励函数;4) 强化学习智能体:根据奖励函数学习物理技能;5) Pose2CLIP:将智能体姿势映射到CLIP语义空间,弥合模拟和真实图像之间的差距。
关键创新:GROVE的关键创新在于:1) 提出了一种广义奖励框架,无需手动设计奖励函数或特定任务的演示;2) 利用LLM和VLM的互补优势,自动生成和优化奖励函数;3) 开发了Pose2CLIP,一种轻量级映射器,将智能体姿势直接投影到语义特征空间,无需昂贵的渲染。与现有方法相比,GROVE能够更好地泛化到不同的任务和环境,并能够学习更自然的运动。
关键设计:Pose2CLIP是一个轻量级的神经网络,它将智能体的姿势(例如,关节角度)作为输入,并将其映射到CLIP的语义特征空间。损失函数包括一个对比损失,用于鼓励相似的姿势在CLIP空间中更接近,以及一个正则化项,用于防止过拟合。LLM生成的约束被用作奖励函数的组成部分,VLM的评估结果被用来调整约束的权重。强化学习智能体使用PPO算法进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GROVE在运动自然度上比现有方法提高了22.2%,在任务完成得分上提高了25.7%,同时训练速度提高了8.4倍。这些结果表明,GROVE是一种有效的开放词汇物理技能学习方法,能够显著提高智能体的性能和效率。
🎯 应用场景
GROVE框架可应用于机器人、游戏AI、虚拟现实等领域。例如,可以用于训练机器人完成各种复杂的物理任务,如装配、导航、操作等。在游戏AI中,可以用于生成更逼真的角色动画和行为。在虚拟现实中,可以用于创建更具交互性的虚拟环境。该研究为实现通用人工智能迈出了重要一步。
📄 摘要(原文)
Learning open-vocabulary physical skills for simulated agents presents a significant challenge in artificial intelligence. Current reinforcement learning approaches face critical limitations: manually designed rewards lack scalability across diverse tasks, while demonstration-based methods struggle to generalize beyond their training distribution. We introduce GROVE, a generalized reward framework that enables open-vocabulary physical skill learning without manual engineering or task-specific demonstrations. Our key insight is that Large Language Models(LLMs) and Vision Language Models(VLMs) provide complementary guidance -- LLMs generate precise physical constraints capturing task requirements, while VLMs evaluate motion semantics and naturalness. Through an iterative design process, VLM-based feedback continuously refines LLM-generated constraints, creating a self-improving reward system. To bridge the domain gap between simulation and natural images, we develop Pose2CLIP, a lightweight mapper that efficiently projects agent poses directly into semantic feature space without computationally expensive rendering. Extensive experiments across diverse embodiments and learning paradigms demonstrate GROVE's effectiveness, achieving 22.2% higher motion naturalness and 25.7% better task completion scores while training 8.4x faster than previous methods. These results establish a new foundation for scalable physical skill acquisition in simulated environments.