MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations

作者: Vignesh Prasad, Alap Kshirsagar, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki

分类: cs.RO, cs.HC, cs.LG

发布日期: 2024-07-10 (更新: 2024-10-13)

备注: Preprint version of paper accepted at IEEE RAL. Project URL: https://bit.ly/MoVEInt

DOI: 10.1109/LRA.2024.3396074

💡 一句话要点

MoVEInt：基于变分专家混合模型的演示学习人机交互

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 演示学习 变分自编码器 混合密度网络 潜在空间 机器人动作生成 多模态学习

📋 核心要点

现有HRI方法难以有效捕捉人机交互中的复杂性和多模态性，限制了机器人对人类行为的适应性。
MoVEInt利用变分专家混合模型，通过学习共享潜在空间表示，使机器人能够根据人类观察做出反应性动作。
实验表明，MoVEInt在多种HRI任务中生成更准确的机器人运动，并在真实场景中实现了与不同人类伙伴的成功交互。

📝 摘要（中文）

共享动力学模型对于捕捉人机交互（HRI）中固有的复杂性和可变性至关重要。本文提出了一种新颖的方法，通过专家混合的方式从演示中学习HRI的共享潜在空间表示，从而根据人类的观察反应性地生成机器人动作。我们训练了一个变分自编码器（VAE），以学习机器人运动，并使用信息丰富的潜在空间先验进行正则化，该先验通过混合密度网络（MDN）捕获人类观察的多模态性。我们展示了我们的公式如何从高斯混合回归公式中推导出来，该公式通常用于从演示中学习HRI的方法，例如使用HMM/GMM来学习人类和机器人动作的联合分布。我们进一步结合了额外的正则化，以防止“模式崩溃”，这是在使用带有VAE的潜在空间混合模型时常见的现象。我们发现，与以前基于HMM或循环的方法学习共享潜在表示相比，我们使用来自人类观察的信息丰富的MDN先验的VAE方法可以生成更准确的机器人运动，我们在涉及握手、碰拳、挥手和移交等交互的各种HRI数据集上验证了这一点。在真实的人到机器人移交场景中的进一步实验表明，我们的方法能够有效地生成与四个不同的人类交互伙伴的成功交互。

🔬 方法详解

问题定义：论文旨在解决人机交互中机器人如何根据人类行为进行反应性动作生成的问题。现有方法，如基于HMM或循环神经网络的方法，难以有效捕捉人机交互固有的复杂性和多模态性，导致机器人动作不够准确和自然。这些方法通常无法很好地建模人类行为的不确定性和多样性，限制了机器人的适应能力。

核心思路：论文的核心思路是利用变分自编码器（VAE）学习一个共享的潜在空间表示，该表示能够捕捉人类和机器人动作之间的关系。通过使用混合密度网络（MDN）作为VAE的先验，可以有效地建模人类行为的多模态性。这种方法允许机器人根据观察到的人类行为，生成多个可能的动作，并选择最合适的动作执行。此外，论文还引入了额外的正则化项，以防止VAE训练过程中常见的“模式崩溃”问题。

技术框架：MoVEInt的整体框架包括以下几个主要模块：1) 数据收集：收集人机交互的演示数据，包括人类和机器人的动作序列。2) VAE训练：使用收集到的数据训练VAE，其中编码器将人类和机器人的动作序列映射到潜在空间，解码器则从潜在空间重构动作序列。3) MDN先验：使用MDN建模潜在空间的先验分布，MDN的输入是人类的观察，输出是潜在空间中高斯混合模型的参数。4) 正则化：引入额外的正则化项，防止模式崩溃。5) 动作生成：在交互过程中，机器人根据观察到的人类行为，使用MDN预测潜在空间的分布，然后从该分布中采样，并使用解码器生成机器人动作。

关键创新：MoVEInt的关键创新在于使用MDN作为VAE的先验，从而能够有效地建模人类行为的多模态性。与传统的VAE方法相比，MoVEInt能够生成更多样化和更准确的机器人动作。此外，论文还提出了防止模式崩溃的正则化方法，提高了VAE的训练稳定性和性能。

关键设计：论文的关键设计包括：1) 使用高斯混合模型作为MDN的输出，每个高斯分量代表一种可能的交互模式。2) 引入KL散度作为VAE的损失函数，鼓励潜在空间的分布接近MDN的先验分布。3) 使用额外的正则化项，惩罚潜在空间中不同高斯分量之间的重叠，从而防止模式崩溃。4) 实验中，VAE的网络结构包括多层感知机（MLP），MDN也采用MLP结构。具体的参数设置，如隐藏层大小、学习率等，需要根据具体的数据集和任务进行调整。

📊 实验亮点

实验结果表明，MoVEInt在各种HRI数据集上优于现有的HMM和循环神经网络方法。例如，在握手、碰拳、挥手和移交等任务中，MoVEInt能够生成更准确的机器人动作。在真实的人到机器人移交场景中，MoVEInt成功地与四个不同的人类交互伙伴进行了交互，验证了其在实际应用中的有效性。具体性能提升数据未知，论文侧重于定性展示。

🎯 应用场景

MoVEInt具有广泛的应用前景，可用于各种人机协作场景，如工业机器人辅助装配、医疗机器人辅助康复、服务机器人提供个性化服务等。通过学习人类行为的模式，机器人能够更好地理解人类意图，并做出相应的反应，从而提高人机交互的效率和安全性。该研究的成果有助于推动人机协作机器人技术的发展，实现更加智能和自然的交互。

📄 摘要（原文）

Shared dynamics models are important for capturing the complexity and variability inherent in Human-Robot Interaction (HRI). Therefore, learning such shared dynamics models can enhance coordination and adaptability to enable successful reactive interactions with a human partner. In this work, we propose a novel approach for learning a shared latent space representation for HRIs from demonstrations in a Mixture of Experts fashion for reactively generating robot actions from human observations. We train a Variational Autoencoder (VAE) to learn robot motions regularized using an informative latent space prior that captures the multimodality of the human observations via a Mixture Density Network (MDN). We show how our formulation derives from a Gaussian Mixture Regression formulation that is typically used approaches for learning HRI from demonstrations such as using an HMM/GMM for learning a joint distribution over the actions of the human and the robot. We further incorporate an additional regularization to prevent "mode collapse", a common phenomenon when using latent space mixture models with VAEs. We find that our approach of using an informative MDN prior from human observations for a VAE generates more accurate robot motions compared to previous HMM-based or recurrent approaches of learning shared latent representations, which we validate on various HRI datasets involving interactions such as handshakes, fistbumps, waving, and handovers. Further experiments in a real-world human-to-robot handover scenario show the efficacy of our approach for generating successful interactions with four different human interaction partners.

MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理