OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction
作者: Yini Fang, Jingling Yu, Haozheng Zhang, Ralf van der Lans, Bertram Shi
分类: cs.CV
发布日期: 2024-07-18
备注: Accepted in ECCV 2024
💡 一句话要点
提出OAT:用于注视点扫描路径预测的物体级别注意力Transformer
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 视觉搜索 注视点预测 眼动追踪 Transformer 物体级别注意力
📋 核心要点
- 现有方法主要在像素级别建模视觉注意力,忽略了物体级别的引导作用,限制了预测精度。
- OAT通过编码器-解码器架构,结合物体的位置、外观和目标信息,预测物体级别的注视点扫描路径。
- 实验表明,OAT在预测人类注视模式方面优于基于空间注意力的算法,并具有良好的泛化能力。
📝 摘要(中文)
视觉搜索在日常生活中至关重要,而视觉注意力的有效分配是高效完成视觉搜索任务的关键。以往的研究主要在像素级别对图像中的视觉注意力空间分配进行建模,例如使用显著性图。然而,越来越多的证据表明,视觉注意力是由物体而不是像素强度引导的。本文介绍了一种物体级别注意力Transformer(OAT),它可以预测人类在杂乱的干扰物场景中搜索目标物体时的注视点扫描路径。OAT采用编码器-解码器架构。编码器捕获图像中物体的位置和外观以及目标物体的信息。解码器通过整合来自编码器和解码器的输出特征,将注视点扫描路径预测为一系列物体注视。我们还提出了一种新的位置编码,可以更好地反映物体之间的空间关系。我们在亚马逊图书封面数据集和一个我们收集的新的视觉搜索数据集上评估了OAT。与基于空间注意力的算法的预测相比,OAT预测的注视点扫描路径与人类的注视模式更加吻合,无论是在已建立的指标还是在一种新的基于行为的指标上。我们的结果证明了OAT的泛化能力,因为它能够准确地预测未见过的布局和目标物体的人类扫描路径。
🔬 方法详解
问题定义:现有方法主要基于像素级别的显著性图来预测视觉注意力,忽略了物体在视觉搜索中的重要作用。这种方法无法有效捕捉人类在搜索特定目标时,对不同物体的关注和扫描路径的策略性调整。因此,如何利用物体信息来更准确地预测人类的注视点扫描路径是一个挑战。
核心思路:论文的核心思路是将视觉搜索过程建模为物体级别的序列预测问题。通过提取图像中各个物体的位置和外观特征,并结合目标物体的信息,利用Transformer架构来学习物体之间的关系,从而预测人类的注视点扫描路径。这种方法更符合人类视觉注意力的认知机制,即关注的对象是离散的物体,而不是连续的像素。
技术框架:OAT采用编码器-解码器架构。编码器负责提取图像中各个物体的位置和外观特征,以及目标物体的信息,并将这些信息编码成一个高维向量表示。解码器则根据编码器的输出,逐步预测人类的注视点序列,即一系列被注视的物体。编码器和解码器都使用了Transformer结构,以捕捉物体之间的长距离依赖关系。
关键创新:论文的关键创新在于将Transformer架构应用于物体级别的注视点扫描路径预测,并提出了一种新的位置编码方法,以更好地反映物体之间的空间关系。与传统的基于像素级别的显著性图方法相比,OAT能够更准确地捕捉人类在视觉搜索中的策略性行为。
关键设计:OAT的关键设计包括:1) 使用预训练的物体检测器(如Faster R-CNN)来提取图像中的物体;2) 使用Transformer编码器来学习物体的位置和外观特征;3) 使用Transformer解码器来预测注视点序列;4) 提出了一种新的位置编码方法,该方法考虑了物体之间的相对位置关系;5) 使用交叉熵损失函数来训练模型,目标是最小化预测的注视点序列与真实注视点序列之间的差异。
🖼️ 关键图片
📊 实验亮点
OAT在Amazon book cover数据集和作者自建的视觉搜索数据集上进行了评估。实验结果表明,OAT在预测人类注视点扫描路径方面优于基于空间注意力的算法。具体而言,OAT在多个指标上取得了显著提升,包括扫描路径相似度、注视点位置准确率等。此外,OAT还展现了良好的泛化能力,能够准确预测未见过的布局和目标物体的人类扫描路径。
🎯 应用场景
该研究成果可应用于眼动追踪分析、人机交互、广告设计、用户体验研究等领域。例如,可以利用OAT预测用户在浏览网页或观看视频时的注意力焦点,从而优化界面布局和内容呈现,提高用户体验。此外,该技术还可以用于辅助视觉障碍人士进行导航和物体识别。
📄 摘要(原文)
Visual search is important in our daily life. The efficient allocation of visual attention is critical to effectively complete visual search tasks. Prior research has predominantly modelled the spatial allocation of visual attention in images at the pixel level, e.g. using a saliency map. However, emerging evidence shows that visual attention is guided by objects rather than pixel intensities. This paper introduces the Object-level Attention Transformer (OAT), which predicts human scanpaths as they search for a target object within a cluttered scene of distractors. OAT uses an encoder-decoder architecture. The encoder captures information about the position and appearance of the objects within an image and about the target. The decoder predicts the gaze scanpath as a sequence of object fixations, by integrating output features from both the encoder and decoder. We also propose a new positional encoding that better reflects spatial relationships between objects. We evaluated OAT on the Amazon book cover dataset and a new dataset for visual search that we collected. OAT's predicted gaze scanpaths align more closely with human gaze patterns, compared to predictions by algorithms based on spatial attention on both established metrics and a novel behavioural-based metric. Our results demonstrate the generalization ability of OAT, as it accurately predicts human scanpaths for unseen layouts and target objects.