GazeGrasp: DNN-Driven Robotic Grasping with Wearable Eye-Gaze Interface

📄 arXiv: 2501.07255v2 📥 PDF

作者: Issatay Tokmurziyev, Miguel Altamirano Cabrera, Luis Moreno, Muhammad Haris Khan, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2025-01-13 (更新: 2025-01-14)

备注: Accepted to: IEEE/ACM International Conference on Human-Robot Interaction (HRI 2025)


💡 一句话要点

GazeGrasp:基于眼动追踪和深度学习的机器人抓取系统,提升运动障碍人士自主性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 眼动追踪 机器人抓取 深度学习 辅助机器人 运动障碍 人机交互 YOLOv8

📋 核心要点

  1. 现有机器人操作界面对于运动障碍人士存在操作困难,限制了他们的自主性。
  2. GazeGrasp系统利用眼动追踪技术,结合深度学习算法,实现了免手持的机器人控制。
  3. 实验结果表明,该系统显著提升了任务效率,为运动障碍人士提供了更便捷的机器人交互方式。

📝 摘要(中文)

本文提出了一种名为GazeGrasp的基于眼动控制的机器人操作系统,旨在帮助运动障碍人士通过眼动控制协作机器人。该系统利用ESP32 CAM进行眼动追踪,MediaPipe进行注视点检测,YOLOv8进行物体定位,并与Universal Robot UR10机器人集成以完成操作任务。经过用户特定的校准后,该系统允许用户通过直观的眼动选择物体,并利用磁吸效应辅助精确定位,以及通过眼动姿势控制机器人。包含13名参与者的实验评估表明,磁吸效应显著减少了注视对齐时间,并将任务效率提高了31%。GazeGrasp为辅助机器人提供了一个稳健的、免手持的界面,增强了用户的可访问性和自主性。

🔬 方法详解

问题定义:论文旨在解决运动障碍人士难以使用传统方式控制机器人的问题。现有方法通常依赖于手部操作或复杂的语音控制,对于手部功能受限或语音表达困难的人群来说,存在显著的局限性。因此,如何设计一种直观、易用的免手持机器人控制界面是本研究的核心问题。

核心思路:论文的核心思路是利用眼动追踪技术,将用户的注视点转化为机器人的控制指令。通过捕捉用户的眼球运动,系统可以识别用户想要选择的物体和执行的操作,从而实现对机器人的精确控制。这种方法无需用户进行复杂的手部动作或语音输入,大大降低了操作难度。

技术框架:GazeGrasp系统的整体架构包含以下几个主要模块:1) 眼动追踪模块:使用ESP32 CAM摄像头捕捉用户的眼部图像。2) 注视点检测模块:利用MediaPipe库处理眼部图像,检测用户的注视点位置。3) 物体定位模块:采用YOLOv8目标检测算法识别场景中的物体,并确定其位置。4) 机器人控制模块:将用户的注视点信息和物体位置信息转化为机器人的运动指令,控制Universal Robot UR10执行抓取等操作。5) 磁吸效应模块:在用户注视点靠近目标物体时,引入磁吸效应,辅助用户更精确地选择目标。

关键创新:该论文的关键创新在于将眼动追踪技术与深度学习算法相结合,构建了一个完整的、实用的机器人控制系统。此外,磁吸效应的设计也显著提升了用户体验和操作精度。与现有方法相比,GazeGrasp系统更加直观、易用,能够有效帮助运动障碍人士控制机器人。

关键设计:系统采用用户特定的校准流程,以提高眼动追踪的准确性。磁吸效应的实现方式是:当用户的注视点与目标物体的距离小于一定阈值时,系统会自动将注视点“吸附”到目标物体上。YOLOv8的训练数据集包含各种常见物体的图像,以保证物体识别的准确性。机器人控制模块采用ROS(Robot Operating System)进行通信和控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GazeGrasp系统能够有效提升运动障碍人士控制机器人的效率。具体来说,磁吸效应的引入显著减少了注视对齐时间,使得任务完成时间平均缩短了31%。此外,参与者对该系统的易用性和舒适度给予了高度评价,表明该系统具有良好的用户体验。

🎯 应用场景

GazeGrasp系统具有广泛的应用前景,可应用于辅助生活、康复训练、远程医疗等领域。例如,它可以帮助运动障碍人士完成日常任务,如取物、喂食等,提高他们的生活质量和自主性。在康复训练中,该系统可以作为一种交互式工具,帮助患者进行手眼协调训练。此外,该系统还可以应用于远程医疗领域,使医生能够远程控制机器人进行诊断和治疗。

📄 摘要(原文)

We present GazeGrasp, a gaze-based manipulation system enabling individuals with motor impairments to control collaborative robots using eye-gaze. The system employs an ESP32 CAM for eye tracking, MediaPipe for gaze detection, and YOLOv8 for object localization, integrated with a Universal Robot UR10 for manipulation tasks. After user-specific calibration, the system allows intuitive object selection with a magnetic snapping effect and robot control via eye gestures. Experimental evaluation involving 13 participants demonstrated that the magnetic snapping effect significantly reduced gaze alignment time, improving task efficiency by 31%. GazeGrasp provides a robust, hands-free interface for assistive robotics, enhancing accessibility and autonomy for users.