Enhancing Gaze Reasoning in Vision Foundation Models for Gaze Following

📄 arXiv: 2605.22607v1 📥 PDF

作者: Shijing Wang, Yaping Huang, Chaoqun Cui, David Wong, Yihua Cheng, Alexandros Neophytou, Hyung Jin Chang

分类: cs.CV

发布日期: 2026-05-21

备注: 11 pages, 8 figures


💡 一句话要点

提出头部条件局部LoRA与视锥外惩罚,增强视觉基础模型中的注视推理能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 注视跟随 视觉基础模型 注视推理 头部条件LoRA 视锥外惩罚 人机交互 场景理解

📋 核心要点

  1. 现有基于视觉基础模型的注视跟随方法,在场景理解方面表现出色,但在注视推理方面存在不足,依赖语义显著性。
  2. 论文提出头部条件局部LoRA和视锥外惩罚,前者局部调整模型以提升头部token学习,后者注入注视线索并对齐token。
  3. 实验结果表明,该方法在GazeFollow和VAT数据集上取得了SOTA性能,尤其在非显著目标场景下提升显著。

📝 摘要(中文)

注视跟随需要场景理解和注视推理来定位场景中人物的注视目标。最近,视觉基础模型(VFMs)在该任务上表现出强大的性能,实现了更简单的架构,同时优于先前的方法。然而,我们观察到基于VFM的方法的一个关键限制:虽然VFMs大大提高了场景理解能力,但它们对注视推理的贡献很小。因此,现有方法通常依赖于语义上显著的对象,而不是真正的注视线索,导致当目标不显著时性能下降。为了解决这个问题,我们提出了一种新的训练机制来增强VFMs在注视跟随中的注视推理能力。我们的方法包括:(1)头部条件局部LoRA,它能够进行局部适应,以保留场景token学习,同时改进头部token学习以进行注视推理;(2)视锥外惩罚,它将注视线索注入头部token,同时将它们与场景token对齐。在GazeFollow和VAT数据集上的实验表明,我们的方法实现了最先进的性能,尤其是在注视目标在语义上不显著时,性能得到了显著提高。我们的发现为推进未来的注视跟随研究提供了宝贵的见解。一旦论文被接受,我们将发布代码。

🔬 方法详解

问题定义:论文旨在解决现有基于视觉基础模型(VFM)的注视跟随方法中,注视推理能力不足的问题。现有方法过度依赖场景中语义显著的目标进行预测,而忽略了真正的注视线索,导致在目标不显著时性能显著下降。因此,如何提升VFM的注视推理能力,使其能够更准确地利用注视信息,是本研究要解决的核心问题。

核心思路:论文的核心思路是通过改进VFM的训练方式,显式地增强其对注视线索的利用能力。具体来说,通过引入头部条件局部LoRA,有选择性地调整模型参数,重点提升头部token的学习效果,使其更好地捕捉注视信息。同时,引入视锥外惩罚,引导头部token与场景token对齐,并将注视线索注入头部token中,从而提升整体的注视推理能力。

技术框架:整体框架基于现有的视觉基础模型,并在其基础上引入了两个关键模块:头部条件局部LoRA和视锥外惩罚。首先,输入图像经过VFM编码,得到场景token和头部token。然后,头部条件局部LoRA对头部token进行局部调整,增强其对注视信息的敏感性。接着,视锥外惩罚将注视线索注入头部token,并促使其与场景token对齐。最后,利用调整后的token进行注视目标预测。

关键创新:论文的关键创新在于提出了两种新的训练机制:头部条件局部LoRA和视锥外惩罚。头部条件局部LoRA允许模型在保留场景理解能力的同时,专注于提升头部token的注视推理能力。视锥外惩罚则显式地将注视线索注入头部token,并促使其与场景token对齐,从而提升整体的注视推理性能。与现有方法相比,该方法更加注重对注视信息的利用,而非仅仅依赖语义显著性。

关键设计:头部条件局部LoRA的关键在于如何确定需要调整的参数。论文采用了一种局部LoRA的方法,只对与头部token相关的参数进行调整,避免影响场景token的学习。视锥外惩罚的关键在于如何定义视锥外的区域。论文采用了一种基于注视方向的视锥定义方法,将视锥外的区域定义为与注视方向相反的区域。损失函数包括标准的交叉熵损失和视锥外惩罚损失,其中视锥外惩罚损失用于惩罚模型预测的注视目标位于视锥外的情况。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在GazeFollow和VAT数据集上均取得了SOTA性能。在GazeFollow数据集上,该方法相较于现有最佳方法提升了约2%。更重要的是,在注视目标不显著的场景下,该方法的提升更为显著,表明其能够更有效地利用注视线索进行推理。消融实验也验证了头部条件局部LoRA和视锥外惩罚的有效性。

🎯 应用场景

该研究成果可应用于人机交互、辅助驾驶、智能监控等领域。通过提升机器对人类注视行为的理解,可以实现更自然、更智能的人机交互体验。在辅助驾驶中,可以利用注视跟随技术判断驾驶员的注意力状态,提高驾驶安全性。在智能监控中,可以分析人群的注视行为,从而更好地理解人群的意图和行为模式。

📄 摘要(原文)

Gaze following requires both scene understanding and gaze reasoning to localize the gaze target of an in-scene person. Recently, vision foundation models (VFMs) have demonstrated strong performance on this task, enabling simpler architectures while outperforming prior methods. However, we observe a key limitation of VFM-based approaches: while VFMs substantially improve scene understanding, they contribute little to gaze reasoning. As a result, existing methods often rely on semantically salient objects rather than true gaze cues, leading to degraded performance when targets are not salient. To address this, we propose a novel training mechanism to enhance gaze reasoning in VFMs for gaze following. Our method includes: (1) a head-conditioned local LoRA, which enables localized adaptation to preserve scene token learning while improving head token learning for gaze reasoning; and (2) an out-of-cone penalty, which injects gaze cues into head tokens while aligning them with scene tokens. Experiments on the GazeFollow and VAT datasets demonstrate that our method achieves state-of-the-art performance, with particularly strong improvements when gaze targets are not semantically salient. Our findings offer valuable insights for advancing future gaze following research. We will release the code once the paper is accepted.