Testing Human-Hand Segmentation on In-Distribution and Out-of-Distribution Data in Human-Robot Interactions Using a Deep Ensemble Model
作者: Reza Jalayer, Yuxin Chen, Masoud Jalayer, Carlotta Orsenigo, Masayoshi Tomizuka
分类: cs.CV, cs.HC, cs.LG, cs.RO
发布日期: 2025-01-13
期刊: Mechatronics 110 (2025) 103365
DOI: 10.1016/j.mechatronics.2025.103365
💡 一句话要点
提出基于深度集成模型的人手分割方法,评估其在人机交互中分布内和分布外数据的性能。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 人机交互 手部分割 深度学习 分布外泛化 深度集成模型
📋 核心要点
- 现有手部分割研究主要集中在分布内数据,忽略了真实人机交互中常见的分布外场景带来的挑战。
- 论文提出使用深度集成模型(UNet和RefineNet)进行手部分割,并构建包含分布内和分布外数据的多样化数据集。
- 实验结果表明,在工业数据集上训练的模型在分布外场景下具有更好的泛化能力,突出了上下文特定训练的重要性。
📝 摘要(中文)
可靠的人手检测和分割对于提高人机协作的安全性至关重要。目前的研究主要在分布内(ID)数据下评估手部分割,这反映了深度学习(DL)模型的训练数据。然而,这种方法无法解决真实人机交互中经常出现的分布外(OOD)场景。本研究提出了一种新方法,通过评估预训练DL模型在ID数据和更具挑战性的OOD场景下的性能。为了模拟真实的工业场景,我们设计了一个多样化的数据集,包含简单和杂乱的背景、工业工具、不同数量的手(0到4),以及戴手套和不戴手套的手。对于OOD场景,我们纳入了独特和罕见的条件,如手指交叉手势和快速移动的手产生的运动模糊,解决了认知和偶然不确定性。为了确保多个视角(PoV),我们利用安装在操作员头部的主视角相机和静态相机来捕捉人机交互的RGB图像。这种方法使我们能够考虑多个相机视角,同时评估在现有主视角数据集和静态相机数据集上训练的模型的性能。对于分割,我们使用由UNet和RefineNet作为基础学习器的深度集成模型。使用分割指标和通过预测熵进行不确定性量化进行性能评估。结果表明,在工业数据集上训练的模型优于在非工业数据集上训练的模型,突出了特定上下文训练的重要性。虽然所有模型都在OOD场景中表现不佳,但在工业数据集上训练的模型表现出明显更好的泛化能力。
🔬 方法详解
问题定义:论文旨在解决人机交互中手部分割在分布外(OOD)数据上的泛化能力问题。现有方法主要在分布内(ID)数据上进行评估,无法应对真实场景中复杂多变的OOD情况,例如不同的光照条件、遮挡、手势变化以及运动模糊等,导致分割精度下降,影响人机交互的可靠性和安全性。
核心思路:论文的核心思路是构建一个包含ID和OOD数据的多样化数据集,并使用深度集成模型来提高手部分割的鲁棒性和泛化能力。通过在更具挑战性的数据集上训练模型,使其能够更好地适应真实场景中的各种变化。深度集成模型通过结合多个模型的预测结果,可以降低单个模型的误差,提高整体的分割精度和稳定性。
技术框架:论文的技术框架主要包括以下几个部分:1) 数据集构建:收集包含ID和OOD数据的RGB图像,涵盖不同的背景、光照、手势、遮挡等情况。2) 模型选择:选择UNet和RefineNet作为基础分割模型。3) 集成方法:采用深度集成方法,将多个基础模型的预测结果进行融合。4) 评估指标:使用分割指标(如IoU)和不确定性量化(如预测熵)来评估模型的性能。
关键创新:论文的关键创新在于:1) 构建了一个包含工业场景下ID和OOD数据的多样化手部分割数据集,更贴近真实人机交互场景。2) 使用深度集成模型,结合了UNet和RefineNet的优点,提高了分割的准确性和鲁棒性。3) 针对OOD数据,通过不确定性量化来评估模型的可靠性,为后续的改进提供了方向。
关键设计:论文的关键设计包括:1) 数据集的设计:考虑了多种工业场景,包括简单和杂乱的背景、工业工具、不同数量的手(0-4)、戴手套和不戴手套的手,以及手指交叉手势和运动模糊等OOD情况。2) 集成模型的选择:UNet擅长捕捉全局上下文信息,RefineNet擅长精细化分割结果,两者结合可以提高分割的准确性和细节。3) 损失函数:使用标准的分割损失函数,如交叉熵损失或Dice损失。4) 训练策略:采用数据增强技术来增加数据的多样性,提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在工业数据集上训练的深度集成模型在分布外数据上表现出更好的泛化能力。具体来说,相比于在非工业数据集上训练的模型,该模型在OOD场景下的分割精度显著提高,并且不确定性量化结果也表明其预测更加可靠。这验证了上下文特定训练的重要性,并为实际应用提供了有价值的参考。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如工业机器人辅助装配、医疗机器人辅助手术、智能家居控制等。通过提高手部分割的准确性和鲁棒性,可以增强人机交互的自然性和安全性,提升工作效率,降低操作风险。未来,该技术还可以扩展到其他人体部位的分割,实现更智能、更安全的人机交互。
📄 摘要(原文)
Reliable detection and segmentation of human hands are critical for enhancing safety and facilitating advanced interactions in human-robot collaboration. Current research predominantly evaluates hand segmentation under in-distribution (ID) data, which reflects the training data of deep learning (DL) models. However, this approach fails to address out-of-distribution (OOD) scenarios that often arise in real-world human-robot interactions. In this study, we present a novel approach by evaluating the performance of pre-trained DL models under both ID data and more challenging OOD scenarios. To mimic realistic industrial scenarios, we designed a diverse dataset featuring simple and cluttered backgrounds with industrial tools, varying numbers of hands (0 to 4), and hands with and without gloves. For OOD scenarios, we incorporated unique and rare conditions such as finger-crossing gestures and motion blur from fast-moving hands, addressing both epistemic and aleatoric uncertainties. To ensure multiple point of views (PoVs), we utilized both egocentric cameras, mounted on the operator's head, and static cameras to capture RGB images of human-robot interactions. This approach allowed us to account for multiple camera perspectives while also evaluating the performance of models trained on existing egocentric datasets as well as static-camera datasets. For segmentation, we used a deep ensemble model composed of UNet and RefineNet as base learners. Performance evaluation was conducted using segmentation metrics and uncertainty quantification via predictive entropy. Results revealed that models trained on industrial datasets outperformed those trained on non-industrial datasets, highlighting the importance of context-specific training. Although all models struggled with OOD scenarios, those trained on industrial datasets demonstrated significantly better generalization.