GazeGrasp: DNN-Driven Robotic Grasping with Wearable Eye-Gaze Interface

作者: Issatay Tokmurziyev, Miguel Altamirano Cabrera, Luis Moreno, Muhammad Haris Khan, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2025-01-13 (更新: 2025-01-14)

备注: Accepted to: IEEE/ACM International Conference on Human-Robot Interaction (HRI 2025)

💡 一句话要点

GazeGrasp：基于眼动追踪和深度学习的机器人抓取系统，提升运动障碍人士自主性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 眼动追踪 机器人抓取 深度学习 辅助机器人 运动障碍 人机交互 YOLOv8

📋 核心要点

现有机器人操作界面对于运动障碍人士存在操作困难，限制了他们的自主性。
GazeGrasp系统利用眼动追踪技术，结合深度学习算法，实现了免手持的机器人控制。
实验结果表明，该系统显著提升了任务效率，为运动障碍人士提供了更便捷的机器人交互方式。

📝 摘要（中文）

本文提出了一种名为GazeGrasp的基于眼动控制的机器人操作系统，旨在帮助运动障碍人士通过眼动控制协作机器人。该系统利用ESP32 CAM进行眼动追踪，MediaPipe进行注视点检测，YOLOv8进行物体定位，并与Universal Robot UR10机器人集成以完成操作任务。经过用户特定的校准后，该系统允许用户通过直观的眼动选择物体，并利用磁吸效应辅助精确定位，以及通过眼动姿势控制机器人。包含13名参与者的实验评估表明，磁吸效应显著减少了注视对齐时间，并将任务效率提高了31%。GazeGrasp为辅助机器人提供了一个稳健的、免手持的界面，增强了用户的可访问性和自主性。

🔬 方法详解

问题定义：论文旨在解决运动障碍人士难以使用传统方式控制机器人的问题。现有方法通常依赖于手部操作或复杂的语音控制，对于手部功能受限或语音表达困难的人群来说，存在显著的局限性。因此，如何设计一种直观、易用的免手持机器人控制界面是本研究的核心问题。

核心思路：论文的核心思路是利用眼动追踪技术，将用户的注视点转化为机器人的控制指令。通过捕捉用户的眼球运动，系统可以识别用户想要选择的物体和执行的操作，从而实现对机器人的精确控制。这种方法无需用户进行复杂的手部动作或语音输入，大大降低了操作难度。

技术框架：GazeGrasp系统的整体架构包含以下几个主要模块：1) 眼动追踪模块：使用ESP32 CAM摄像头捕捉用户的眼部图像。2) 注视点检测模块：利用MediaPipe库处理眼部图像，检测用户的注视点位置。3) 物体定位模块：采用YOLOv8目标检测算法识别场景中的物体，并确定其位置。4) 机器人控制模块：将用户的注视点信息和物体位置信息转化为机器人的运动指令，控制Universal Robot UR10执行抓取等操作。5) 磁吸效应模块：在用户注视点靠近目标物体时，引入磁吸效应，辅助用户更精确地选择目标。

关键创新：该论文的关键创新在于将眼动追踪技术与深度学习算法相结合，构建了一个完整的、实用的机器人控制系统。此外，磁吸效应的设计也显著提升了用户体验和操作精度。与现有方法相比，GazeGrasp系统更加直观、易用，能够有效帮助运动障碍人士控制机器人。

关键设计：系统采用用户特定的校准流程，以提高眼动追踪的准确性。磁吸效应的实现方式是：当用户的注视点与目标物体的距离小于一定阈值时，系统会自动将注视点“吸附”到目标物体上。YOLOv8的训练数据集包含各种常见物体的图像，以保证物体识别的准确性。机器人控制模块采用ROS（Robot Operating System）进行通信和控制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GazeGrasp系统能够有效提升运动障碍人士控制机器人的效率。具体来说，磁吸效应的引入显著减少了注视对齐时间，使得任务完成时间平均缩短了31%。此外，参与者对该系统的易用性和舒适度给予了高度评价，表明该系统具有良好的用户体验。

🎯 应用场景

GazeGrasp系统具有广泛的应用前景，可应用于辅助生活、康复训练、远程医疗等领域。例如，它可以帮助运动障碍人士完成日常任务，如取物、喂食等，提高他们的生活质量和自主性。在康复训练中，该系统可以作为一种交互式工具，帮助患者进行手眼协调训练。此外，该系统还可以应用于远程医疗领域，使医生能够远程控制机器人进行诊断和治疗。

📄 摘要（原文）

We present GazeGrasp, a gaze-based manipulation system enabling individuals with motor impairments to control collaborative robots using eye-gaze. The system employs an ESP32 CAM for eye tracking, MediaPipe for gaze detection, and YOLOv8 for object localization, integrated with a Universal Robot UR10 for manipulation tasks. After user-specific calibration, the system allows intuitive object selection with a magnetic snapping effect and robot control via eye gestures. Experimental evaluation involving 13 participants demonstrated that the magnetic snapping effect significantly reduced gaze alignment time, improving task efficiency by 31%. GazeGrasp provides a robust, hands-free interface for assistive robotics, enhancing accessibility and autonomy for users.

GazeGrasp: DNN-Driven Robotic Grasping with Wearable Eye-Gaze Interface

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理