Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding

📄 arXiv: 2510.21356v1 📥 PDF

作者: Anupam Pani, Yanchao Yang

分类: cs.CV, cs.AI

发布日期: 2025-10-24

🔗 代码/项目: GITHUB


💡 一句话要点

Gaze-VLM:通过注视正则化增强VLM的以自我为中心的理解能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 注视预测 视觉语言模型 自我中心视觉 注意力机制 行为理解

📋 核心要点

  1. 现有以自我为中心的理解方法依赖视觉输入或将注视作为辅助,忽略了注视本身蕴含的丰富信息。
  2. 该论文提出一种注视正则化框架,通过注视引导训练,使VLM的注意力与人类视觉注视对齐。
  3. 实验表明,该方法在未来事件预测和当前活动理解任务上,显著提升了VLM的性能和鲁棒性。

📝 摘要(中文)

本文提出了一种注视正则化框架,旨在增强视觉语言模型(VLM)在以自我为中心的理解任务中的性能,具体包括细粒度的未来事件预测和当前活动理解。与以往仅依赖视觉输入或将注视作为辅助输入信号的方法不同,该方法仅在训练阶段使用注视信息。通过引入注视正则化注意力机制,使模型关注点与人类视觉注视对齐。这种设计具有灵活性和模块化,可以推广到多种使用注意力的VLM架构。实验结果表明,与没有注视正则化训练的基线模型相比,该方法在未来事件预测的语义预测分数上提高了高达11个点,在当前活动理解上提高了约7个点。这些结果突显了注视引导训练在提高以自我为中心的VLM的准确性和鲁棒性方面的价值。总的来说,这项工作为使用人类注视来增强VLM在辅助机器人和人机协作等实际场景中的预测能力奠定了基础。

🔬 方法详解

问题定义:论文旨在解决以自我为中心的场景理解问题,具体包括未来事件预测和当前活动理解。现有方法主要依赖视觉信息,或者将注视信息作为辅助输入,没有充分利用注视信息本身所蕴含的注意力、意图和未来行为等线索。这些方法的痛点在于无法有效地将人类的视觉注意力融入到模型的学习过程中,导致模型在理解以自我为中心的行为时缺乏准确性和鲁棒性。

核心思路:论文的核心思路是利用人类的注视数据来正则化视觉语言模型的注意力机制,从而使模型能够更好地模拟人类的视觉关注模式。通过在训练过程中引入注视信息,引导模型关注与人类注视点相关的视觉区域,从而提高模型对场景的理解能力和预测能力。这样设计的目的是让模型学习到人类在特定场景下的关注重点,从而更好地理解人类的行为意图。

技术框架:整体框架包括一个视觉语言模型(VLM)和一个注视正则化模块。VLM负责处理视觉输入并进行预测,注视正则化模块则利用人类的注视数据来调整VLM的注意力权重。训练过程中,首先将视觉输入送入VLM,得到初步的注意力权重。然后,注视正则化模块将人类的注视数据与VLM的注意力权重进行比较,计算一个正则化损失。最后,将正则化损失与VLM的原始损失结合起来,共同优化模型参数。

关键创新:该论文最重要的技术创新点在于提出了注视正则化注意力机制,该机制能够有效地将人类的注视信息融入到VLM的训练过程中。与以往方法不同,该方法仅在训练阶段使用注视信息,避免了在推理阶段对注视数据的依赖。此外,该方法具有灵活性和模块化,可以推广到多种使用注意力机制的VLM架构。

关键设计:关键设计包括注视正则化损失函数和注意力对齐策略。注视正则化损失函数用于衡量VLM的注意力权重与人类注视点之间的差异,目标是最小化这种差异。注意力对齐策略则用于将人类的注视点映射到VLM的注意力权重上,例如可以使用高斯核函数来模拟人类注视点的分布,并将该分布与VLM的注意力权重进行对齐。具体的参数设置包括高斯核函数的方差、正则化损失的权重等。

📊 实验亮点

实验结果表明,该方法在未来事件预测的语义预测分数上提高了高达11个点,在当前活动理解上提高了约7个点,相比于没有注视正则化训练的基线模型。这些显著的提升表明,注视引导训练能够有效地提高以自我为中心的VLM的准确性和鲁棒性。此外,该方法具有良好的泛化能力,可以应用于多种VLM架构。

🎯 应用场景

该研究成果可应用于辅助机器人、人机协作、智能监控等领域。例如,在辅助机器人中,机器人可以通过理解人类的注视点来预测人类的意图,从而更好地提供帮助。在人机协作中,机器可以通过理解人类的注视点来判断人类是否理解当前的任务,从而进行相应的调整。在智能监控中,系统可以通过分析人类的注视点来检测异常行为,从而提高安全性。

📄 摘要(原文)

Eye gaze offers valuable cues about attention, short-term intent, and future actions, making it a powerful signal for modeling egocentric behavior. In this work, we propose a gaze-regularized framework that enhances VLMs for two key egocentric understanding tasks: fine-grained future event prediction and current activity understanding. Unlike prior approaches that rely solely on visual inputs or use gaze as an auxiliary input signal , our method uses gaze only during training. We introduce a gaze-regularized attention mechanism that aligns model focus with human visual gaze. This design is flexible and modular, allowing it to generalize across multiple VLM architectures that utilize attention. Experimental results show that our approach improves semantic prediction scores by up to 11 for future event prediction and around 7 for current activity understanding, compared to the corresponding baseline models trained without gaze regularization. These results highlight the value of gaze-guided training in improving the accuracy and robustness of egocentric VLMs. Overall, this work establishes a foundation for using human gaze to enhance the predictive capabilities of VLMs in real-world scenarios like assistive robots and human-machine collaboration. Code and additional information is available at: https://github.com/anupampani/Gaze-VLM