What They Saw, Not Just Where They Looked: Semantic Scanpath Similarity via VLMs and NLP metric
作者: Mohamed Amine Kerkouri, Marouane Tliba, Bin Wang, Aladine Chetouani, Ulas Bagci, Alessandro Bruno
分类: cs.CV, cs.CL, cs.HC
发布日期: 2026-04-09
备注: Accepted at ETRA 2026 GenAI workshop
💡 一句话要点
提出基于视觉-语言模型的语义注视路径相似度评估框架,弥补传统方法对语义信息的忽略。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼动追踪 注视路径相似度 视觉-语言模型 语义分析 自然语言处理
📋 核心要点
- 现有注视路径相似度方法主要关注空间和时间对齐,忽略了注视区域间的语义关联。
- 利用视觉-语言模型将注视点编码为文本描述,并通过NLP技术计算语义相似度。
- 实验表明语义相似度与几何对齐度量互补,能捕捉空间差异大但语义一致的注视模式。
📝 摘要(中文)
注视路径相似度度量是眼动追踪研究的核心,但现有方法主要评估空间和时间上的对齐,忽略了被关注图像区域之间的语义等价性。本文提出了一个语义注视路径相似度框架,该框架将视觉-语言模型(VLMs)集成到眼动追踪分析中。每个注视点在受控的视觉上下文(基于图像块和基于标记的策略)下进行编码,并转换为简洁的文本描述,然后聚合为注视路径级别的表示。语义相似度随后使用基于嵌入和词汇的自然语言处理(NLP)指标进行计算,并与已建立的空间度量(包括MultiMatch和DTW)进行比较。在自由观看眼动追踪数据上的实验表明,语义相似度捕获了与几何对齐部分独立的方差,揭示了尽管空间发散但内容高度一致的情况。我们进一步分析了上下文编码对描述保真度和度量稳定性的影响。我们的研究结果表明,多模态基础模型能够对经典注视路径分析进行可解释的、内容感知的扩展,为ETRA社区内的注视研究提供了一个补充维度。
🔬 方法详解
问题定义:现有注视路径相似度度量方法主要依赖于空间和时间上的对齐,例如MultiMatch和DTW等。这些方法忽略了注视点所关注图像区域的语义信息,导致无法有效评估语义上相似但空间位置不同的注视路径。例如,两个观察者可能关注图像中不同位置的同一物体,其注视路径在空间上差异较大,但语义上是相似的。
核心思路:本文的核心思路是将视觉信息转化为文本描述,利用自然语言处理技术来计算注视路径之间的语义相似度。通过视觉-语言模型(VLM),将每个注视点周围的图像区域编码成一段文本描述,然后使用NLP指标(如词嵌入相似度、词汇重叠度量)来评估这些文本描述之间的相似性。这种方法能够捕捉到注视路径的语义信息,从而更全面地评估注视路径的相似度。
技术框架:该框架主要包含以下几个阶段:1. 注视点编码:使用两种策略对每个注视点进行编码:基于图像块的策略和基于标记的策略。基于图像块的策略提取注视点周围的图像块,而基于标记的策略则使用预训练的目标检测模型来识别注视点附近的物体。2. 文本描述生成:使用视觉-语言模型(如CLIP)将编码后的视觉信息转换为文本描述。3. 注视路径表示:将每个注视路径中所有注视点的文本描述进行聚合,形成注视路径级别的表示。4. 语义相似度计算:使用NLP指标(如余弦相似度、BLEU)计算注视路径之间的语义相似度。同时,与传统空间度量(如MultiMatch和DTW)进行比较。
关键创新:该论文的关键创新在于将视觉-语言模型引入到注视路径相似度评估中,从而能够捕捉到注视路径的语义信息。与传统的空间度量方法相比,该方法能够更全面地评估注视路径的相似度,并且能够发现空间位置不同但语义内容相似的注视路径。
关键设计:在注视点编码阶段,论文采用了两种策略:基于图像块的策略和基于标记的策略。基于图像块的策略提取注视点周围的图像块,并将其输入到视觉-语言模型中。基于标记的策略使用预训练的目标检测模型来识别注视点附近的物体,并将这些物体的标签作为文本描述。在语义相似度计算阶段,论文使用了多种NLP指标,包括余弦相似度、BLEU等。此外,论文还分析了上下文编码对描述保真度和度量稳定性的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,语义相似度能够捕捉到与几何对齐度量部分独立的方差,揭示了空间发散但内容高度一致的注视路径。例如,在自由观看实验中,语义相似度能够区分出关注同一物体但注视位置不同的观察者。此外,研究还分析了上下文编码对描述保真度和度量稳定性的影响,为选择合适的编码策略提供了指导。
🎯 应用场景
该研究成果可应用于眼动追踪分析、用户行为理解、认知科学研究等领域。例如,可以用于评估不同用户在浏览网页或观看视频时的注意力模式,从而优化内容呈现方式。此外,该方法还可以用于诊断认知障碍,例如自闭症谱系障碍,这些患者的注视模式与正常人存在差异。
📄 摘要(原文)
Scanpath similarity metrics are central to eye-movement research, yet existing methods predominantly evaluate spatial and temporal alignment while neglecting semantic equivalence between attended image regions. We present a semantic scanpath similarity framework that integrates vision-language models (VLMs) into eye-tracking analysis. Each fixation is encoded under controlled visual context (patch-based and marker-based strategies) and transformed into concise textual descriptions, which are aggregated into scanpath-level representations. Semantic similarity is then computed using embedding-based and lexical NLP metrics and compared against established spatial measures, including MultiMatch and DTW. Experiments on free-viewing eye-tracking data demonstrate that semantic similarity captures partially independent variance from geometric alignment, revealing cases of high content agreement despite spatial divergence. We further analyze the impact of contextual encoding on description fidelity and metric stability. Our findings suggest that multimodal foundation models enable interpretable, content-aware extensions of classical scanpath analysis, providing a complementary dimension for gaze research within the ETRA community.