Early Detection of Human Handover Intentions in Human-Robot Collaboration: Comparing EEG, Gaze, and Hand Motion
作者: Parag Khanna, Nona Rajabi, Sumeyra U. Demir Kanik, Danica Kragic, Mårten Björkman, Christian Smith
分类: cs.RO, cs.HC
发布日期: 2025-02-17
备注: In submission at Robotics and Autonomous Systems, 2025
💡 一句话要点
对比脑电、眼动和手部运动,实现人机协作中人类意图的早期检测
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 意图识别 脑电 眼动 多模态融合 早期检测 物体传递
📋 核心要点
- 现有的人机协作研究主要依赖视觉信息检测物体传递意图,但易受轨迹重叠影响,导致延迟或误判。
- 该研究探索非运动生理信号(脑电、眼动)在早期意图识别中的作用,旨在提升人机协作的效率和准确性。
- 实验对比了脑电、眼动和手部运动三种模态,结果表明眼动信号在传递意图的早期检测中表现最佳。
📝 摘要(中文)
人机协作(HRC)依赖于对人类意图的准确和及时识别,以确保无缝交互。在常见的HRC任务中,人到机器人的物体传递已被广泛研究,用于规划机器人在物体接收过程中的动作,前提是人类具有物体传递的意图。然而,区分传递意图与其他动作的研究却很少。大多数关于传递的研究都集中在视觉检测运动轨迹上,当轨迹重叠时,这通常会导致延迟或错误检测。本文研究了人类物体传递意图是否反映在非运动的生理信号中。我们进行了一项多模态分析,比较了三种数据模态:脑电图(EEG)、眼动和手部运动信号。我们的研究旨在区分HRC环境中,具有传递意图的人类运动和非传递运动,评估每种模态在人类运动开始前后预测和分类这些动作的性能。我们开发并评估了基于这些模态的人类意图检测器,比较了它们在识别传递意图方面的准确性和时间。据我们所知,这是第一个在人机传递的相同实验环境中系统地开发和测试跨多种模态的意图检测器的研究。我们的分析表明,传递意图可以从所有三种模态中检测到。然而,眼动信号是最早也是最准确的,可以对运动进行分类,判断其是否用于传递。
🔬 方法详解
问题定义:论文旨在解决人机协作中,机器人如何更早、更准确地识别出人类的物体传递意图的问题。现有方法主要依赖视觉信息,通过分析手部运动轨迹来判断,但当多个运动轨迹重叠时,容易出现检测延迟或错误,影响协作效率。
核心思路:论文的核心思路是探索非运动生理信号(脑电、眼动)在早期意图识别中的作用。作者认为,在人类开始实际运动之前,其意图可能已经反映在脑电活动和眼动模式中。通过分析这些生理信号,可以更早地预测人类的传递意图。
技术框架:整体框架包括数据采集、预处理、特征提取和分类器训练四个主要阶段。首先,通过实验采集人类在进行物体传递和非传递动作时的脑电、眼动和手部运动数据。然后,对数据进行预处理,包括滤波、降噪等。接着,从预处理后的数据中提取特征,例如脑电信号的功率谱密度、眼动信号的注视点位置和持续时间、手部运动的速度和加速度等。最后,使用机器学习算法(具体算法未知)训练分类器,用于区分传递意图和非传递意图。
关键创新:该论文的关键创新在于:1) 系统性地比较了脑电、眼动和手部运动三种模态在早期意图识别中的性能;2) 探索了非运动生理信号在人机协作中的应用,为早期意图检测提供了新的思路;3) 在同一实验环境中,对多种模态的意图检测器进行了开发和测试,保证了实验结果的可比性。
关键设计:论文中未明确说明关键参数设置、损失函数、网络结构等技术细节。实验设计方面,需要控制实验变量,例如物体类型、传递距离、参与者等,以保证实验结果的可靠性。特征提取方面,需要选择合适的特征,以充分反映不同模态的信息。分类器选择方面,需要根据数据特点选择合适的机器学习算法,并进行参数调优。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有三种模态(脑电、眼动、手部运动)都可以用于检测传递意图。其中,眼动信号在早期检测方面表现最佳,能够最早且最准确地对运动进行分类,判断其是否用于传递。具体的性能数据和提升幅度在摘要中未明确给出,需要在论文正文中查找。
🎯 应用场景
该研究成果可应用于多种人机协作场景,例如工业机器人辅助装配、医疗机器人辅助手术、智能家居服务等。通过更早、更准确地识别人类意图,机器人可以更主动地配合人类完成任务,提高协作效率和安全性,并提升用户体验。未来,可以将该技术与机器人控制算法相结合,实现更加智能和自然的交互。
📄 摘要(原文)
Human-robot collaboration (HRC) relies on accurate and timely recognition of human intentions to ensure seamless interactions. Among common HRC tasks, human-to-robot object handovers have been studied extensively for planning the robot's actions during object reception, assuming the human intention for object handover. However, distinguishing handover intentions from other actions has received limited attention. Most research on handovers has focused on visually detecting motion trajectories, which often results in delays or false detections when trajectories overlap. This paper investigates whether human intentions for object handovers are reflected in non-movement-based physiological signals. We conduct a multimodal analysis comparing three data modalities: electroencephalogram (EEG), gaze, and hand-motion signals. Our study aims to distinguish between handover-intended human motions and non-handover motions in an HRC setting, evaluating each modality's performance in predicting and classifying these actions before and after human movement initiation. We develop and evaluate human intention detectors based on these modalities, comparing their accuracy and timing in identifying handover intentions. To the best of our knowledge, this is the first study to systematically develop and test intention detectors across multiple modalities within the same experimental context of human-robot handovers. Our analysis reveals that handover intention can be detected from all three modalities. Nevertheless, gaze signals are the earliest as well as the most accurate to classify the motion as intended for handover or non-handover.