RaycastGrasp: Eye-Gaze Interaction with Wearable Devices for Robotic Manipulation

📄 arXiv: 2510.22113v1 📥 PDF

作者: Zitiantao Lin, Yongpeng Sang, Yang Ye

分类: cs.RO, cs.HC

发布日期: 2025-10-25

备注: 5 pages, 5 figures; Accepted to: 2025 IEEE 4th International Conference on Intelligent Reality (ICIR 2025); Zitiantao Lin and Yongpeng Sang contributed equally to this work (co-first authors). Corresponding author: Yang Ye (y.ye@northeastern.edu)


💡 一句话要点

RaycastGrasp:基于眼动追踪与可穿戴设备的机器人操作交互

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 眼动追踪 机器人操作 混合现实 人机交互 辅助机器人 可穿戴设备 意图识别

📋 核心要点

  1. 现有基于操纵杆的机器人控制界面精度要求高,参考系不直观,对行动不便人士构成挑战。
  2. 该论文提出了一种基于可穿戴MR头显的眼动引导机器人操作方法,使用户能够自然地与物体交互。
  3. 实验结果表明,该方法显著提高了操作精度,降低了系统延迟,并实现了较高的意图和物体识别准确率。

📝 摘要(中文)

本文提出了一种基于第一人称视角的、眼动引导的机器人操作界面,旨在辅助行动不便的人群进行物体抓取。该系统利用可穿戴混合现实(MR)头显,使用户能够通过自然的眼动注视与真实世界的物体进行无缝交互。系统提供增强的视觉提示以确认用户意图,并利用预训练的视觉模型和机械臂进行意图识别和物体操作。实验结果表明,该方法显著提高了操作精度,降低了系统延迟,并在多个真实场景中实现了超过88%的单次意图和物体识别准确率。这些结果验证了该系统在增强直观性和可访问性方面的有效性,突显了其在辅助机器人应用中的实际意义。

🔬 方法详解

问题定义:现有机器人操作界面,特别是针对行动不便人士的辅助系统,通常依赖于操纵杆等传统输入方式。这些方式存在精度要求高、控制方式不直观等问题,难以实现自然、高效的人机交互。此外,许多方案依赖外部屏幕或限制性的控制方案,进一步降低了易用性和可访问性。

核心思路:论文的核心思路是利用眼动追踪技术,结合可穿戴的混合现实(MR)设备,构建一个以用户为中心的、直观的机器人操作界面。通过捕捉用户的眼动注视点,系统能够理解用户的操作意图,并引导机械臂完成相应的抓取任务。这种方式模拟了人类自然的操作方式,降低了学习成本,提高了操作效率。

技术框架:该系统的整体框架包含以下几个主要模块:1) 眼动追踪模块:利用MR头显内置的眼动追踪传感器,实时捕捉用户的眼动数据。2) 意图识别模块:基于眼动数据和视觉信息,利用预训练的视觉模型识别用户的操作意图和目标物体。3) 机械臂控制模块:根据意图识别结果,控制机械臂执行相应的抓取动作。4) 视觉反馈模块:通过MR头显向用户提供增强的视觉提示,例如目标物体的轮廓、抓取路径等,以帮助用户确认操作意图并提高操作精度。

关键创新:该论文的关键创新在于将眼动追踪技术与可穿戴MR设备相结合,构建了一个沉浸式的、直观的机器人操作界面。与传统的控制方式相比,该方法更加自然、高效,降低了用户的学习成本。此外,系统利用预训练的视觉模型进行意图识别,提高了识别的准确性和鲁棒性。

关键设计:系统使用Raycasting技术将用户的视线投射到三维场景中,以确定用户注视的目标物体。为了提高意图识别的准确性,系统采用了预训练的视觉模型,例如基于卷积神经网络(CNN)的目标检测模型。此外,系统还设计了一系列视觉反馈机制,例如高亮显示目标物体、显示抓取路径等,以帮助用户确认操作意图并提高操作精度。具体的参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,该系统显著提高了操作精度,降低了系统延迟,并在多个真实场景中实现了超过88%的单次意图和物体识别准确率。与传统的操纵杆控制方式相比,该方法更加直观、高效,降低了用户的学习成本。这些结果验证了该系统在增强直观性和可访问性方面的有效性。

🎯 应用场景

该研究成果可广泛应用于辅助机器人领域,例如帮助行动不便的人士完成日常物品的抓取和操作,提高他们的生活质量。此外,该技术还可以应用于工业自动化、远程操作等领域,例如在危险环境中进行远程作业,提高工作效率和安全性。未来,随着MR技术的不断发展,该系统有望实现更加智能化、个性化的机器人操作体验。

📄 摘要(原文)

Robotic manipulators are increasingly used to assist individuals with mobility impairments in object retrieval. However, the predominant joystick-based control interfaces can be challenging due to high precision requirements and unintuitive reference frames. Recent advances in human-robot interaction have explored alternative modalities, yet many solutions still rely on external screens or restrictive control schemes, limiting their intuitiveness and accessibility. To address these challenges, we present an egocentric, gaze-guided robotic manipulation interface that leverages a wearable Mixed Reality (MR) headset. Our system enables users to interact seamlessly with real-world objects using natural gaze fixation from a first-person perspective, while providing augmented visual cues to confirm intent and leveraging a pretrained vision model and robotic arm for intent recognition and object manipulation. Experimental results demonstrate that our approach significantly improves manipulation accuracy, reduces system latency, and achieves single-pass intention and object recognition accuracy greater than 88% across multiple real-world scenarios. These results demonstrate the system's effectiveness in enhancing intuitiveness and accessibility, underscoring its practical significance for assistive robotics applications.