THÖR-MAGNI Act: Actions for Human Motion Modeling in Robot-Shared Industrial Spaces

📄 arXiv: 2412.13729v2 📥 PDF

作者: Tiago Rodrigues de Almeida, Tim Schreiter, Andrey Rudenko, Luigi Palmieiri, Johannes A. Stork, Achim J. Lilienthal

分类: cs.RO, cs.HC, cs.LG

发布日期: 2024-12-18 (更新: 2024-12-23)

备注: This paper has been accepted to the the 20th edition of the IEEE/ACM International Conference on Human-Robot Interaction (HRI'25), which will be held in Melbourne, Australia on March 4-6, 2025. Code: https://github.com/tmralmeida/thor-magni-actions


💡 一句话要点

提出THÖR-MAGNI Act数据集,用于机器人共享工业空间中的人类运动建模

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人机交互 工业机器人 动作识别 轨迹预测 数据集 Transformer 运动建模

📋 核心要点

  1. 现有数据集缺乏工业环境中人机交互场景下,人类细粒度动作标注,限制了相关研究。
  2. 论文通过扩展THÖR-MAGNI数据集,提出了THÖR-MAGNI Act数据集,包含丰富的动作标注和运动数据。
  3. 实验证明,基于该数据集训练的Transformer模型在动作条件轨迹预测和联合动作轨迹预测任务上表现出色。

📝 摘要(中文)

为了确保移动机器人在动态环境(如工业环境)中安全可靠地与人类交互,准确的人类活动和轨迹预测至关重要。目前,针对工业环境中移动机器人旁人类细粒度动作标签的数据集非常稀缺,因为现有数据集大多关注公共场所的社交导航。本文介绍了THÖR-MAGNI Act数据集,它是THÖR-MAGNI数据集的重大扩展,记录了参与者在不同语义和空间环境中与机器人一起移动的情况。THÖR-MAGNI Act提供了8.3小时的手动标注的参与者动作,这些动作来自通过眼动追踪眼镜记录的自我中心视频。这些动作与提供的THÖR-MAGNI运动线索对齐,遵循长尾分布,具有多样化的加速度、速度和导航距离特征。我们展示了THÖR-MAGNI Act在两个任务中的效用:动作条件下的轨迹预测以及联合动作和轨迹预测。我们提出了两种高效的基于Transformer的模型,它们优于基线模型来解决这些任务。这些结果突显了THÖR-MAGNI Act在开发预测模型以增强复杂环境中人机交互方面的潜力。

🔬 方法详解

问题定义:现有的人机交互数据集主要集中在公共场所的社交导航,缺乏针对工业环境中移动机器人旁人类行为的细粒度动作标注。这使得开发能够准确预测人类行为并确保安全人机协作的算法变得困难。现有方法难以处理工业环境的复杂性和多样性,以及人类行为的长尾分布特性。

核心思路:论文的核心思路是构建一个包含丰富标注的工业环境人机交互数据集,即THÖR-MAGNI Act。通过提供细粒度的动作标签和运动数据,该数据集旨在促进开发更准确、更鲁棒的人类行为预测模型。这种数据驱动的方法能够更好地捕捉工业环境中人类行为的复杂性和多样性。

技术框架:该研究主要围绕THÖR-MAGNI Act数据集的构建和应用展开。数据集的构建包括数据采集、动作标注和数据对齐等步骤。数据采集使用眼动追踪眼镜记录参与者的自我中心视频,捕捉其在工业环境中与机器人交互时的行为。动作标注由人工完成,提供细粒度的动作标签。数据对齐将动作标签与THÖR-MAGNI数据集提供的运动线索对齐。为了验证数据集的有效性,论文提出了两种基于Transformer的模型,用于动作条件下的轨迹预测和联合动作和轨迹预测任务。

关键创新:该论文的关键创新在于构建了THÖR-MAGNI Act数据集,这是首个针对工业环境中人机交互场景的细粒度动作标注数据集。该数据集的规模和质量使其能够用于训练更准确、更鲁棒的人类行为预测模型。此外,论文还提出了两种基于Transformer的模型,并在该数据集上取得了优异的性能。

关键设计:THÖR-MAGNI Act数据集包含8.3小时的手动标注的参与者动作,这些动作来自通过眼动追踪眼镜记录的自我中心视频。动作标签与THÖR-MAGNI运动线索对齐,遵循长尾分布,具有多样化的加速度、速度和导航距离特征。论文提出了两种基于Transformer的模型,具体结构和参数设置未知,但实验结果表明它们优于基线模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了THÖR-MAGNI Act数据集的有效性。提出的基于Transformer的模型在动作条件轨迹预测和联合动作轨迹预测任务上均优于基线模型,表明该数据集能够有效提升人类行为预测的准确性。具体的性能提升幅度未知,但结果表明该数据集具有很大的潜力。

🎯 应用场景

该研究成果可应用于智能制造、仓储物流等领域,提升人机协作的安全性与效率。通过准确预测人类行为,机器人可以更好地适应人类的动作,避免碰撞和干扰,从而实现更流畅、更安全的人机协同作业。未来,该数据集和相关模型可用于开发更智能的机器人系统,实现更高级别的人机交互。

📄 摘要(原文)

Accurate human activity and trajectory prediction are crucial for ensuring safe and reliable human-robot interactions in dynamic environments, such as industrial settings, with mobile robots. Datasets with fine-grained action labels for moving people in industrial environments with mobile robots are scarce, as most existing datasets focus on social navigation in public spaces. This paper introduces the THÖR-MAGNI Act dataset, a substantial extension of the THÖR-MAGNI dataset, which captures participant movements alongside robots in diverse semantic and spatial contexts. THÖR-MAGNI Act provides 8.3 hours of manually labeled participant actions derived from egocentric videos recorded via eye-tracking glasses. These actions, aligned with the provided THÖR-MAGNI motion cues, follow a long-tailed distribution with diversified acceleration, velocity, and navigation distance profiles. We demonstrate the utility of THÖR-MAGNI Act for two tasks: action-conditioned trajectory prediction and joint action and trajectory prediction. We propose two efficient transformer-based models that outperform the baselines to address these tasks. These results underscore the potential of THÖR-MAGNI Act to develop predictive models for enhanced human-robot interaction in complex environments.