Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models

📄 arXiv: 2504.11054v1 📥 PDF

作者: Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother, Mateusz Guzek, Anssi Kanervisto, Yingchen Xu, Alessandro Lazaric, Matteo Pirotta

分类: cs.LG

发布日期: 2025-04-15

备注: Published at ICLR 2025


💡 一句话要点

提出基于行为模型的全身人形机器人零样本控制方法 Meta Motivo

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人形机器人控制 无监督强化学习 行为模型 零样本学习 模仿学习

📋 核心要点

  1. 现有无监督强化学习方法在复杂环境中解决下游任务时,需要对每个任务进行强化学习过程,性能提升有限。
  2. 论文提出一种新的算法,通过模仿未标记行为数据集中的轨迹来规范无监督强化学习,学习与数据集行为对齐的策略。
  3. 实验表明,Meta Motivo 在人形机器人控制问题上,能够解决多种全身任务,并优于现有无监督强化学习方法。

📝 摘要(中文)

本文提出了一种新的算法,通过模仿未标记行为数据集中的轨迹来规范无监督强化学习(RL)。该方法名为具有条件策略正则化的前向-后向表示(Forward-Backward Representations with Conditional-Policy Regularization),其关键技术创新在于训练前向-后向表示,将未标记的轨迹嵌入到与状态、奖励和策略相同的潜在空间中,并使用潜在条件判别器来鼓励策略“覆盖”未标记行为数据集中的状态。因此,可以学习到与数据集中行为良好对齐的策略,同时保留基于奖励和模仿任务的零样本泛化能力。在具有挑战性的人形机器人控制问题中,通过利用仅观察的运动捕捉数据集,训练了Meta Motivo,这是第一个可以被提示解决各种全身任务(包括运动跟踪、目标到达和奖励优化)的人形机器人行为基础模型。该模型能够表达类似人类的行为,并且在与特定任务方法竞争的同时,优于最先进的无监督RL和基于模型的基线。

🔬 方法详解

问题定义:现有无监督强化学习方法在解决复杂环境中的下游任务时存在局限性,例如需要对每个下游任务进行强化学习过程才能达到满意的性能,或者需要访问具有良好覆盖率或精心策划的特定任务样本的数据集,或者使用与感兴趣的下游任务关联性较差的无监督损失来预训练策略。这些方法难以实现真正的零样本泛化能力。

核心思路:论文的核心思路是通过模仿未标记行为数据集中的轨迹来规范无监督强化学习。具体来说,就是将未标记的行为数据作为一种先验知识,引导策略的学习过程,使其能够更好地泛化到新的任务中。通过学习行为数据集中的状态分布,策略可以更好地“覆盖”这些状态,从而提高其在各种任务中的表现。

技术框架:该方法的核心是Forward-Backward Representations with Conditional-Policy Regularization。整体框架包括以下几个主要模块:1) 前向-后向表示学习模块:用于将未标记的轨迹嵌入到与状态、奖励和策略相同的潜在空间中。2) 策略学习模块:用于学习能够根据状态采取行动的策略。3) 潜在条件判别器:用于鼓励策略“覆盖”未标记行为数据集中的状态。整个流程是,首先利用前向-后向表示学习模块学习行为数据的潜在表示,然后利用策略学习模块学习策略,最后利用潜在条件判别器对策略进行正则化,使其能够更好地覆盖行为数据集中的状态。

关键创新:该方法最重要的技术创新在于使用前向-后向表示来学习行为数据的潜在表示,并使用潜在条件判别器来鼓励策略“覆盖”这些状态。与现有方法相比,该方法能够更好地利用未标记的行为数据,从而提高策略的泛化能力。现有方法通常依赖于精心设计的奖励函数或大量的特定任务数据,而该方法只需要未标记的行为数据即可。

关键设计:在前向-后向表示学习模块中,使用了自编码器结构来学习行为数据的潜在表示。在策略学习模块中,使用了Actor-Critic算法来学习策略。在潜在条件判别器中,使用了GAN结构来鼓励策略“覆盖”行为数据集中的状态。损失函数包括策略梯度损失、判别器损失和重构损失。具体的网络结构和参数设置需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Meta Motivo 在人形机器人控制问题上表现出色,能够解决运动跟踪、目标到达和奖励优化等多种全身任务。实验结果表明,Meta Motivo 在与特定任务方法竞争的同时,优于最先进的无监督强化学习和基于模型的基线。这表明该方法能够有效地利用未标记的行为数据,提高策略的泛化能力。

🎯 应用场景

该研究成果可应用于人形机器人的运动控制、人机交互、虚拟现实等领域。例如,可以利用该方法训练出能够模仿人类动作的机器人,从而实现更自然的人机交互。此外,该方法还可以用于生成逼真的虚拟角色动画,提高虚拟现实体验的真实感。未来,该方法有望应用于更广泛的机器人和人工智能领域。

📄 摘要(原文)

Unsupervised reinforcement learning (RL) aims at pre-training agents that can solve a wide range of downstream tasks in complex environments. Despite recent advancements, existing approaches suffer from several limitations: they may require running an RL process on each downstream task to achieve a satisfactory performance, they may need access to datasets with good coverage or well-curated task-specific samples, or they may pre-train policies with unsupervised losses that are poorly correlated with the downstream tasks of interest. In this paper, we introduce a novel algorithm regularizing unsupervised RL towards imitating trajectories from unlabeled behavior datasets. The key technical novelty of our method, called Forward-Backward Representations with Conditional-Policy Regularization, is to train forward-backward representations to embed the unlabeled trajectories to the same latent space used to represent states, rewards, and policies, and use a latent-conditional discriminator to encourage policies to ``cover'' the states in the unlabeled behavior dataset. As a result, we can learn policies that are well aligned with the behaviors in the dataset, while retaining zero-shot generalization capabilities for reward-based and imitation tasks. We demonstrate the effectiveness of this new approach in a challenging humanoid control problem: leveraging observation-only motion capture datasets, we train Meta Motivo, the first humanoid behavioral foundation model that can be prompted to solve a variety of whole-body tasks, including motion tracking, goal reaching, and reward optimization. The resulting model is capable of expressing human-like behaviors and it achieves competitive performance with task-specific methods while outperforming state-of-the-art unsupervised RL and model-based baselines.