Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation
作者: Kuangji Zuo, Gen Li, Bofan Lyu, Yanshuo Lu, Boyu Ma, Shijia Han, Xinyu Zhou, Xichen Yuan, Chuhao Zhou, Jiaqi Bai, Geng Li, Jianfei Yang
分类: cs.RO
发布日期: 2026-05-28
备注: Project page: https://zuo-kuangji.github.io/Gaze2Act/
💡 一句话要点
Gaze2Act:利用注视引导的视觉-语言-动作策略实现交互式机器人操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 视觉-语言-动作模型 人机交互 注视引导 意图理解
📋 核心要点
- 现有VLA模型在机器人操作中依赖语言指令,但语言难以精确表达交互对象、位置和动态变化。
- Gaze2Act利用人类注视作为动态意图信号,通过跨视角语义匹配实现由粗到精的目标指定。
- 实验表明,Gaze2Act在物体消歧、精细交互和动态意图引导方面显著优于现有方法。
📝 摘要(中文)
视觉-语言-动作(VLA)模型最近在通过遵循语言指令进行机器人学习方面表现出强大的潜力。然而,在实践中,仅凭语言通常不足以精确地传达人类的意图。很难描述在相似的候选项中要与哪个确切的物体交互,在物体的哪个位置进行操作,或者目标在执行过程中可能发生怎样的变化。为了解决这个限制,我们提出了Gaze2Act,一种新颖的VLA框架,它利用人类的注视作为一种动态和直观的意图信号,用于复杂的交互式操作。Gaze2Act首先通过跨视角的语义匹配,将第一人称注视映射到机器人的视角,从而弥合了自我-外部视角差距,生成一个物体掩码和一个注视点,用于由粗到精的目标指定。然后,这些线索通过感知层面的提示和动作层面的条件作用被整合到策略中,允许机器人关注相关区域,并在动态意图下执行精确的交互。在Unitree G1人形机器人上进行的七个任务类别和16个真实机器人任务的系统评估中,Gaze2Act在意图准确性和任务成功率方面都达到了最先进的性能。值得注意的是,它在物体消歧、精细交互和动态意图引导方面优于基线。这些结果表明,人类的注视为人工在环VLA控制提供了一种自然的、低负担的和高度表达性的模式。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型在机器人操作任务中,主要依赖于语言指令来引导机器人完成任务。然而,语言本身存在局限性,难以精确描述交互对象的具体位置、操作方式以及任务执行过程中可能发生的变化,尤其是在存在多个相似对象时,机器人难以准确判断用户的意图。这导致机器人操作的准确性和成功率受到限制。
核心思路:Gaze2Act的核心思路是将人类的注视(gaze)作为一种动态的、直观的意图信号融入到VLA模型中。通过捕捉人类的注视点,模型可以更精确地理解用户的意图,从而指导机器人进行更准确、更精细的操作。这种方法利用了注视的自然性和低负担性,为人机交互提供了一种更有效的方式。
技术框架:Gaze2Act框架主要包含以下几个关键模块:1) 跨视角语义匹配:将第一人称视角的注视信息映射到机器人的视角,弥合视角差异。2) 目标指定:利用映射后的注视信息,生成物体掩码和注视点,实现由粗到精的目标指定。3) 策略集成:将目标指定信息通过感知层面的提示和动作层面的条件作用,融入到VLA策略中,指导机器人执行操作。整体流程是从人类注视输入开始,经过视角转换和目标定位,最终驱动机器人执行动作。
关键创新:Gaze2Act的关键创新在于将人类注视作为一种动态的意图信号,并将其有效地融入到VLA模型中。与传统的仅依赖语言指令的方法相比,Gaze2Act能够更精确地捕捉用户的意图,从而提高机器人操作的准确性和鲁棒性。此外,该方法还解决了第一人称视角和机器人视角之间的差异问题,使得注视信息能够有效地指导机器人的操作。
关键设计:Gaze2Act的关键设计包括:1) 跨视角语义匹配方法:具体实现方式未知,但其目的是将人类注视点转换到机器人视角下的坐标。2) 感知层面的提示:利用注视信息引导模型关注相关的图像区域。3) 动作层面的条件作用:利用注视信息调整机器人的动作执行策略。具体的网络结构、损失函数和参数设置等细节未知。
🖼️ 关键图片
📊 实验亮点
Gaze2Act在七个任务类别和16个真实机器人任务中进行了评估,结果表明其在意图准确性和任务成功率方面均达到了最先进的性能。尤其在物体消歧、精细交互和动态意图引导方面,Gaze2Act显著优于基线方法,证明了人类注视在VLA控制中的有效性。
🎯 应用场景
Gaze2Act技术具有广泛的应用前景,可应用于工业自动化、医疗辅助、家庭服务等领域。例如,在工业自动化中,可以利用该技术实现机器人对复杂零件的精确装配;在医疗辅助中,可以帮助医生进行远程手术操作;在家庭服务中,可以使机器人更好地理解用户的意图,提供更智能化的服务。该技术有望显著提升人机协作效率和机器人操作的智能化水平。
📄 摘要(原文)
Vision-Language-Action (VLA) models have recently shown strong potential for robot learning by following language instructions. However, in practice, language alone is often insufficient to precisely convey human intent. It is difficult to describe which exact object to interact with among similar candidates, where to act on the object, or how the target may change during execution. To address this limitation, we propose Gaze2Act, a novel VLA framework that leverages human gaze as a dynamic and intuitive intent signal for complex interactive manipulation. Gaze2Act first bridges the ego-exo view gap by mapping first-person gaze into the robot's perspective through cross-view semantic matching, producing both an object mask and a gaze point for coarse-to-fine target specification. These cues are then integrated into the policy through perception-level prompting and action-level conditioning, allowing the robot to attend to relevant regions and execute precise interactions under dynamic intent. In a systematic evaluation across seven task categories and 16 real-robot tasks on a Unitree G1 humanoid, Gaze2Act achieves state-of-the-art performance in both intent accuracy and task success rate. It notably outperforms baselines in object disambiguation, fine-grained interaction, and dynamic intent steering. These results demonstrate that human gaze provides a natural, low-burden, and highly expressive modality for human-in-the-loop VLA control.