Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization
作者: Farida Mohsen, Ali Safa
分类: cs.RO, cs.AI
发布日期: 2025-12-18
💡 一句话要点
提出一种基于RGB的姿态与情感融合的实时人机交互意图检测方法,并实现跨摄像头泛化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 意图检测 多模态融合 姿态估计 情感识别 数据增强 变分自编码器
📋 核心要点
- 现有方法依赖RGB-D传感器或GPU加速,限制了在资源受限的嵌入式设备上的应用,且难以应对真实场景的数据不平衡问题。
- 提出一种基于RGB视频的多模态意图检测框架,融合姿态和情感特征,并使用MINT-RVAE合成数据来解决类别不平衡问题。
- 实验表明,该方法在跨主体、跨场景和跨摄像头设置下均表现出良好的泛化能力,并在真实机器人平台上验证了其有效性。
📝 摘要(中文)
本文提出了一种实用的多模态框架,用于帧精确的人机交互意图检测,该框架融合了从单目RGB视频中提取的、与摄像头无关的2D骨骼姿态和面部情感特征。与需要RGB-D传感器或GPU加速的现有方法不同,我们的方法可以在资源受限的嵌入式硬件(Raspberry Pi 5,仅CPU)上运行。为了解决自然人机交互数据集中严重的类别不平衡问题,我们引入了一种新颖的方法来合成时间上连贯的姿态-情感-标签序列,用于数据重平衡,称为MINT-RVAE(用于意图序列生成的多模态循环变分自编码器)。全面的离线评估在跨主体和跨场景协议下证明了强大的泛化性能,实现了0.95的帧和序列级别AUROC。至关重要的是,我们通过在MIRA机器人头部上进行跨摄像头评估来验证真实世界的泛化能力,该机器人头部采用不同的板载RGB传感器并在未在训练数据中表示的非受控环境中运行。尽管存在这种领域转移,但部署的系统在32次实时交互试验中实现了91%的准确率和100%的召回率。离线和部署性能之间的紧密对应关系证实了所提出的多模态方法的跨传感器和跨环境鲁棒性,突出了其对普及型多媒体社交机器人的适用性。
🔬 方法详解
问题定义:论文旨在解决人机交互中机器人实时理解人类意图的问题。现有方法通常依赖于RGB-D传感器获取深度信息,或者需要GPU加速,这限制了它们在资源受限的嵌入式设备上的应用。此外,真实人机交互数据往往存在严重的类别不平衡问题,即某些意图的样本数量远多于其他意图,这会影响模型的泛化能力。
核心思路:论文的核心思路是利用单目RGB视频中的2D骨骼姿态和面部情感信息来推断人类意图。姿态和情感是人类行为的重要线索,并且可以通过轻量级的算法从RGB视频中提取。为了解决数据不平衡问题,论文提出了一种新的数据增强方法,即使用多模态循环变分自编码器(MINT-RVAE)来合成新的姿态-情感-标签序列。
技术框架:整个框架包含以下几个主要模块:1) 姿态估计模块,用于从RGB视频中提取2D骨骼姿态;2) 情感识别模块,用于从RGB视频中提取面部情感特征;3) 特征融合模块,将姿态和情感特征进行融合;4) 意图分类模块,使用分类器根据融合后的特征预测人类意图;5) 数据增强模块,使用MINT-RVAE合成新的数据样本,以解决类别不平衡问题。
关键创新:论文的关键创新点在于:1) 提出了一种基于RGB视频的轻量级多模态意图检测框架,可以在资源受限的嵌入式设备上运行;2) 提出了一种新的数据增强方法MINT-RVAE,可以有效地解决人机交互数据中的类别不平衡问题;3) 通过跨摄像头评估验证了该方法在真实场景中的泛化能力。
关键设计:MINT-RVAE使用循环神经网络(RNN)来建模姿态-情感-标签序列的时间依赖性。变分自编码器(VAE)用于学习姿态和情感特征的潜在空间表示,并生成新的数据样本。损失函数包括重构损失、KL散度和分类损失。在真实机器人平台上,系统采用Raspberry Pi 5作为计算平台,并优化了算法以实现实时性能。
🖼️ 关键图片
📊 实验亮点
该方法在跨主体和跨场景的离线评估中,帧级别和序列级别的AUROC均达到0.95。更重要的是,在真实机器人平台(MIRA机器人头部)上进行了跨摄像头评估,尽管训练数据和测试环境存在领域差异,但系统仍然实现了91%的准确率和100%的召回率,验证了该方法在真实场景中的泛化能力。
🎯 应用场景
该研究成果可应用于各种服务机器人,例如导览机器人、陪伴机器人和医疗辅助机器人。通过实时理解人类意图,这些机器人可以更自然、更有效地与人类进行交互,从而提高用户体验和服务质量。该技术还有潜力应用于智能家居、自动驾驶等领域,实现更智能、更人性化的交互。
📄 摘要(原文)
Service robots in public spaces require real-time understanding of human behavioral intentions for natural interaction. We present a practical multimodal framework for frame-accurate human-robot interaction intent detection that fuses camera-invariant 2D skeletal pose and facial emotion features extracted from monocular RGB video. Unlike prior methods requiring RGB-D sensors or GPU acceleration, our approach resource-constrained embedded hardware (Raspberry Pi 5, CPU-only). To address the severe class imbalance in natural human-robot interaction datasets, we introduce a novel approach to synthesize temporally coherent pose-emotion-label sequences for data re-balancing called MINT-RVAE (Multimodal Recurrent Variational Autoencoder for Intent Sequence Generation). Comprehensive offline evaluations under cross-subject and cross-scene protocols demonstrate strong generalization performance, achieving frame- and sequence-level AUROC of 0.95. Crucially, we validate real-world generalization through cross-camera evaluation on the MIRA robot head, which employs a different onboard RGB sensor and operates in uncontrolled environments not represented in the training data. Despite this domain shift, the deployed system achieves 91% accuracy and 100% recall across 32 live interaction trials. The close correspondence between offline and deployed performance confirms the cross-sensor and cross-environment robustness of the proposed multimodal approach, highlighting its suitability for ubiquitous multimedia-enabled social robots.