GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

作者: Jieming Cui, Tengyu Liu, Ziyu Meng, Jiale Yu, Ran Song, Wei Zhang, Yixin Zhu, Siyuan Huang

分类: cs.CV, cs.RO

发布日期: 2025-04-05 (更新: 2025-09-12)

💡 一句话要点

GROVE：一种广义奖励框架，用于学习开放词汇的物理技能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 开放词汇学习 物理技能 大型语言模型 视觉语言模型 奖励函数 机器人

📋 核心要点

现有强化学习方法在学习物理技能时，依赖手动设计的奖励函数，缺乏跨任务的可扩展性。
GROVE利用LLM生成物理约束，VLM评估运动自然性，迭代优化奖励函数，实现开放词汇物理技能学习。
实验表明，GROVE在运动自然度和任务完成度上显著优于现有方法，并大幅提升了训练速度。

📝 摘要（中文）

本文提出GROVE，一种广义奖励框架，用于学习模拟智能体的开放词汇物理技能，无需手动设计奖励或特定任务的演示。核心思想是利用大型语言模型(LLM)和视觉语言模型(VLM)的互补优势——LLM生成精确的物理约束来捕捉任务需求，而VLM评估运动的语义和自然性。通过迭代设计，基于VLM的反馈不断完善LLM生成的约束，从而创建一个自我改进的奖励系统。为了弥合模拟和自然图像之间的领域差距，开发了Pose2CLIP，一种轻量级映射器，可将智能体姿势直接投影到语义特征空间，无需昂贵的渲染。大量实验表明GROVE的有效性，在不同的智能体和学习范式下，运动自然度提高了22.2%，任务完成得分提高了25.7%，同时训练速度提高了8.4倍。这些结果为模拟环境中可扩展的物理技能获取奠定了新的基础。

🔬 方法详解

问题定义：现有强化学习方法在学习开放词汇物理技能时面临挑战。手动设计的奖励函数难以泛化到不同的任务，而基于演示的方法难以超越训练分布。因此，需要一种能够自动生成奖励函数，并能够泛化到不同任务和环境的方法。

核心思路：GROVE的核心思路是利用大型语言模型（LLM）和视觉语言模型（VLM）的互补优势。LLM擅长生成精确的物理约束，捕捉任务需求；VLM擅长评估运动的语义和自然性。通过迭代设计，VLM的反馈不断完善LLM生成的约束，从而创建一个自我改进的奖励系统。

技术框架：GROVE框架包含以下主要模块：1) LLM约束生成器：根据任务描述，生成物理约束；2) VLM运动评估器：评估智能体运动的语义和自然性；3) 奖励函数生成器：结合LLM生成的约束和VLM的评估结果，生成奖励函数；4) 强化学习智能体：根据奖励函数学习物理技能；5) Pose2CLIP：将智能体姿势映射到CLIP语义空间，弥合模拟和真实图像之间的差距。

关键创新：GROVE的关键创新在于：1) 提出了一种广义奖励框架，无需手动设计奖励函数或特定任务的演示；2) 利用LLM和VLM的互补优势，自动生成和优化奖励函数；3) 开发了Pose2CLIP，一种轻量级映射器，将智能体姿势直接投影到语义特征空间，无需昂贵的渲染。与现有方法相比，GROVE能够更好地泛化到不同的任务和环境，并能够学习更自然的运动。

关键设计：Pose2CLIP是一个轻量级的神经网络，它将智能体的姿势（例如，关节角度）作为输入，并将其映射到CLIP的语义特征空间。损失函数包括一个对比损失，用于鼓励相似的姿势在CLIP空间中更接近，以及一个正则化项，用于防止过拟合。LLM生成的约束被用作奖励函数的组成部分，VLM的评估结果被用来调整约束的权重。强化学习智能体使用PPO算法进行训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GROVE在运动自然度上比现有方法提高了22.2%，在任务完成得分上提高了25.7%，同时训练速度提高了8.4倍。这些结果表明，GROVE是一种有效的开放词汇物理技能学习方法，能够显著提高智能体的性能和效率。

🎯 应用场景

GROVE框架可应用于机器人、游戏AI、虚拟现实等领域。例如，可以用于训练机器人完成各种复杂的物理任务，如装配、导航、操作等。在游戏AI中，可以用于生成更逼真的角色动画和行为。在虚拟现实中，可以用于创建更具交互性的虚拟环境。该研究为实现通用人工智能迈出了重要一步。

📄 摘要（原文）

Learning open-vocabulary physical skills for simulated agents presents a significant challenge in artificial intelligence. Current reinforcement learning approaches face critical limitations: manually designed rewards lack scalability across diverse tasks, while demonstration-based methods struggle to generalize beyond their training distribution. We introduce GROVE, a generalized reward framework that enables open-vocabulary physical skill learning without manual engineering or task-specific demonstrations. Our key insight is that Large Language Models(LLMs) and Vision Language Models(VLMs) provide complementary guidance -- LLMs generate precise physical constraints capturing task requirements, while VLMs evaluate motion semantics and naturalness. Through an iterative design process, VLM-based feedback continuously refines LLM-generated constraints, creating a self-improving reward system. To bridge the domain gap between simulation and natural images, we develop Pose2CLIP, a lightweight mapper that efficiently projects agent poses directly into semantic feature space without computationally expensive rendering. Extensive experiments across diverse embodiments and learning paradigms demonstrate GROVE's effectiveness, achieving 22.2% higher motion naturalness and 25.7% better task completion scores while training 8.4x faster than previous methods. These results establish a new foundation for scalable physical skill acquisition in simulated environments.

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理