Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs

作者: Aayam Shrestha, Pan Liu, German Ros, Kai Yuan, Alan Fern

分类: cs.RO, cs.AI

发布日期: 2025-02-08

期刊: The European Conference on Computer Vision (ECCV), 2024

💡 一句话要点

提出Masked Humanoid Controller (MHC)，从多模态输入生成逼真可控的人体运动

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人形控制 多模态输入 模仿学习 选择性掩蔽 物理仿真

📋 核心要点

现有方法难以同时兼顾人形控制器的通用性、稀疏输入处理、技能切换和错误恢复能力。
提出Masked Humanoid Controller (MHC)，通过多目标模仿学习和选择性掩蔽，提升控制器的泛化能力。
实验表明，MHC能够处理不同步输入、组合运动序列，并从稀疏多模态输入补全运动，无需微调即可解决新任务。

📝 摘要（中文）

本文致力于从多模态输入中生成逼真且基于物理的人体行为，这些输入可能仅部分指定所需的运动。例如，输入可能来自提供手臂运动和身体速度的VR控制器、部分关键点动画、应用于视频的计算机视觉，甚至更高层次的运动目标。这需要一个通用的低级人形控制器，它可以处理这种稀疏、欠指定的指导，在技能之间无缝切换，并从失败中恢复。目前从演示数据中学习人形控制器的方法捕获了其中的一些特性，但没有一种方法能够实现所有这些特性。为此，我们引入了Masked Humanoid Controller (MHC)，这是一种新颖的方法，它在增强和选择性掩蔽的运动演示上应用多目标模仿学习。该训练方法使得MHC能够表现出关键能力，包括赶上不同步的输入命令、组合来自多个运动序列的元素，以及从稀疏的多模态输入中完成未指定的运动部分。我们展示了在包含87种不同技能的数据集上学习的MHC的这些关键能力，并展示了不同的多模态用例，包括与规划框架的集成，以突出MHC在没有任何微调的情况下解决新的用户定义任务的能力。

🔬 方法详解

问题定义：现有的人形控制器在处理稀疏、欠指定的多模态输入时存在困难，无法很好地完成技能切换和错误恢复。它们通常难以将多个运动序列组合起来，并且需要针对特定任务进行微调，泛化能力不足。

核心思路：本文的核心思路是利用多目标模仿学习，训练一个能够从部分信息中推断完整运动的人形控制器。通过选择性地掩蔽训练数据，迫使控制器学习运动之间的依赖关系，从而提高其对不完整或不同步输入的鲁棒性。

技术框架：Masked Humanoid Controller (MHC) 的训练流程主要包括数据增强和选择性掩蔽两个关键步骤。首先，对原始运动演示数据进行增强，增加数据的多样性。然后，对增强后的数据进行选择性掩蔽，即随机地移除部分输入信息，例如关节角度或速度。最后，使用多目标模仿学习训练控制器，使其能够从被掩蔽的输入中尽可能准确地重构原始运动。

关键创新：MHC的关键创新在于其选择性掩蔽的训练方法。通过在训练过程中随机地移除部分输入信息，MHC能够学习到运动之间的内在联系，从而提高其对不完整或噪声输入的鲁棒性。这种方法使得MHC能够从稀疏的多模态输入中推断出完整的运动，而无需针对特定任务进行微调。

关键设计：MHC使用深度神经网络作为控制器，输入包括关节角度、速度、外部力等信息，输出为关节力矩。损失函数采用多目标优化，包括模仿损失（重构原始运动）和物理损失（保证运动的物理合理性）。选择性掩蔽的比例是一个重要的超参数，需要根据具体任务进行调整。网络结构的选择也至关重要，需要平衡模型的表达能力和训练效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MHC能够成功地处理各种稀疏的多模态输入，包括VR控制器输入、部分关键点动画和高层运动目标。MHC能够在没有微调的情况下，完成新的用户定义任务，例如导航和物体操作。与现有方法相比，MHC在处理不完整输入和技能切换方面表现出更强的鲁棒性和泛化能力。具体性能数据未知。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、机器人控制等领域。例如，用户可以通过VR控制器自然地控制虚拟角色的运动，机器人可以根据视觉输入模仿人类的动作。该技术还可以用于生成逼真的人体动画，提高游戏和电影的质量。未来，该技术有望应用于康复训练和人机协作等领域。

📄 摘要（原文）

This work focuses on generating realistic, physically-based human behaviors from multi-modal inputs, which may only partially specify the desired motion. For example, the input may come from a VR controller providing arm motion and body velocity, partial key-point animation, computer vision applied to videos, or even higher-level motion goals. This requires a versatile low-level humanoid controller that can handle such sparse, under-specified guidance, seamlessly switch between skills, and recover from failures. Current approaches for learning humanoid controllers from demonstration data capture some of these characteristics, but none achieve them all. To this end, we introduce the Masked Humanoid Controller (MHC), a novel approach that applies multi-objective imitation learning on augmented and selectively masked motion demonstrations. The training methodology results in an MHC that exhibits the key capabilities of catch-up to out-of-sync input commands, combining elements from multiple motion sequences, and completing unspecified parts of motions from sparse multimodal input. We demonstrate these key capabilities for an MHC learned over a dataset of 87 diverse skills and showcase different multi-modal use cases, including integration with planning frameworks to highlight MHC's ability to solve new user-defined tasks without any finetuning.

Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理