Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

📄 arXiv: 2603.23202v1 📥 PDF

作者: Anupam Pani, Yanchao Yang

分类: cs.CV

发布日期: 2026-03-24


💡 一句话要点

提出基于注视正则化的VLA模型,提升机器人操作任务性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉语言动作模型 注视正则化 注意力机制 人机交互

📋 核心要点

  1. 现有VLA模型在机器人操作中缺乏主动视觉注意力分配机制,难以完成精细任务。
  2. 利用人类注视数据作为监督信号,通过KL散度正则化VLA模型的注意力机制,引导模型关注任务相关特征。
  3. 实验表明,该方法在操作基准测试中性能提升4-12%,并提高了模型鲁棒性和可解释性。

📝 摘要(中文)

本文提出了一种基于注视正则化的训练框架,用于提升视觉-语言-动作(VLA)模型在机器人操作任务中的性能。现有VLA模型缺乏有效的主动视觉注意力分配机制,导致难以处理精细操作任务。该框架利用人类注视作为监督信号,将时间聚合的注视热图转化为patch级别的分布,并通过KL散度正则化Transformer的注意力机制,使其与人类视觉模式对齐。该方法无需修改模型架构或增加推理开销,即可在现有VLA架构上实现4-12%的性能提升。此外,该方法还能减少训练步骤,并保持模型在光照变化和传感器噪声下的鲁棒性。学习到的注意力模式具有可解释性,能够反映人类策略,从而增强对机器人系统的信任。该框架无需额外的眼动追踪设备,可直接应用于现有数据集。

🔬 方法详解

问题定义:论文旨在解决机器人操作任务中,视觉-语言-动作(VLA)模型缺乏有效的主动视觉注意力分配机制的问题。现有方法难以让机器人像人类一样关注任务相关的关键视觉信息,导致在精细操作任务中表现不佳。

核心思路:论文的核心思路是利用人类的注视行为作为一种先验知识,指导VLA模型学习如何分配视觉注意力。人类的注视自然地编码了意图、规划和执行模式,可以作为一种强大的监督信号。通过将人类注视信息融入到VLA模型的训练过程中,可以使模型更好地理解任务需求,并关注关键的视觉区域。

技术框架:整体框架包括以下几个主要步骤:首先,收集人类在执行操作任务时的注视数据。然后,将这些注视数据进行时间聚合,生成注视热图。接着,将注视热图转化为patch级别的分布,用于指导VLA模型的注意力学习。最后,使用KL散度作为正则化项,约束VLA模型的注意力分布与人类注视分布尽可能一致。该框架可以集成到现有的VLA架构中,无需修改模型结构。

关键创新:最重要的技术创新点在于利用人类注视数据来正则化VLA模型的注意力机制。与现有方法相比,该方法不需要额外的眼动追踪设备,可以直接应用于现有的数据集。此外,该方法通过KL散度来对齐注意力分布,可以在不增加推理开销的情况下,有效地引导模型学习人类的视觉策略。

关键设计:关键设计包括:1) 使用时间聚合的注视热图来减少噪声,并捕捉更稳定的注意力模式。2) 将注视热图转化为patch级别的分布,以便与Transformer的注意力权重进行比较。3) 使用KL散度作为损失函数,鼓励模型的注意力分布与人类注视分布相似。4) 该方法没有引入任何新的网络结构或参数,因此不会增加模型的复杂度和推理时间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在机器人操作基准测试中取得了显著的性能提升,平均提升幅度为4-12%。与没有注视正则化的VLA模型相比,该方法能够更快地收敛,并达到更高的性能水平。此外,该方法还提高了模型在光照变化和传感器噪声下的鲁棒性。可视化结果显示,学习到的注意力模式与人类的注视模式高度一致,表明该方法能够有效地引导模型学习人类的视觉策略。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如装配、抓取、放置等。通过学习人类的视觉策略,机器人可以更有效地完成任务,并提高操作的精度和效率。此外,该方法还可以用于开发更智能的人机协作系统,使机器人能够更好地理解人类的意图,并与人类进行更自然的交互。未来,该技术有望在工业自动化、医疗机器人、家庭服务机器人等领域发挥重要作用。

📄 摘要(原文)

Despite advances in Vision-Language-Action (VLA) models, robotic manipulation struggles with fine-grained tasks because current models lack mechanisms for active visual attention allocation. Human gaze naturally encodes intent, planning, and execution patterns -- offering a powerful supervisory signal for guiding robot perception. We introduce a gaze-regularized training framework that aligns VLA models' internal attention with human visual patterns without architectural modifications or inference-time overhead. Our method transforms temporally aggregated gaze heatmaps into patch-level distributions and regularizes the transformer's attention through KL divergence, creating an inductive bias toward task-relevant features while preserving deployment efficiency. When integrated into existing VLA architectures, our approach yields 4-12% improvements across manipulation benchmarks. The gaze-regularized models reach equivalent performance with fewer training steps and maintain robustness under lighting variations and sensor noise. Beyond performance metrics, the learned attention patterns produce interpretable visualizations that mirror human strategies, enhancing trust in robotic systems. Moreover, our framework requires no eye-tracking equipment and applies directly to existing datasets. These results demonstrate that human perceptual priors can significantly accelerate robot learning while improving both task performance and system interpretability.