Object Referring-Guided Scanpath Prediction with Perception-Enhanced Vision-Language Models
作者: Rong Quan, Yantao Lai, Dong Liang, Jie Qin
分类: cs.CV
发布日期: 2026-04-22
备注: ICMR 2026
💡 一句话要点
提出ScanVLA模型,利用感知增强的视觉-语言模型解决目标指代引导的眼动轨迹预测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼动轨迹预测 目标指代 视觉-语言模型 多模态融合 注意力机制
📋 核心要点
- 现有眼动轨迹预测方法在目标指代引导下,缺乏对细粒度位置信息的有效感知和利用。
- ScanVLA模型通过VLM融合视觉和语言特征,并引入历史增强解码器和分割LoRA,增强位置感知。
- 实验结果表明,ScanVLA在目标指代眼动轨迹预测任务上显著优于现有方法,性能得到提升。
📝 摘要(中文)
本文提出了一种新的模型ScanVLA,用于解决目标指代引导的眼动轨迹预测(ORSP)问题。该问题旨在根据描述目标对象的语言描述,预测人类在视觉场景中搜索特定目标对象时的眼动轨迹。多模态信息融合是ORSP的关键。ScanVLA首先利用视觉-语言模型(VLM)从输入图像和指代表达式中提取并融合内在对齐的视觉和语言特征表示。其次,为了增强ScanVLA对细粒度位置信息的感知,我们不仅提出了一个新的历史增强眼动轨迹解码器(HESD),该解码器直接将历史注视点的位置信息作为输入,以帮助预测当前注视点更合理的位置,而且采用冻结的分割LoRA作为辅助组件,以更精确地定位被指代的对象,从而在不产生额外的大量计算和时间成本的情况下改进眼动轨迹预测任务。大量的实验结果表明,ScanVLA在目标指代下显著优于现有的眼动轨迹预测方法。
🔬 方法详解
问题定义:目标指代引导的眼动轨迹预测(ORSP)旨在根据语言描述,预测人类在视觉场景中寻找特定目标时的眼动轨迹。现有方法在融合视觉和语言信息,特别是对细粒度位置信息的感知和利用方面存在不足,导致预测精度受限。
核心思路:论文的核心思路是利用视觉-语言模型(VLM)提取图像和语言描述的对齐特征,并结合历史眼动轨迹信息和分割信息,增强模型对目标对象位置的感知能力,从而更准确地预测后续的眼动轨迹。这样设计的目的是为了弥补现有方法在细粒度位置信息处理上的不足。
技术框架:ScanVLA模型主要包含三个部分:1)视觉-语言模型(VLM):用于提取和融合图像和语言描述的特征表示。2)历史增强眼动轨迹解码器(HESD):利用历史注视点的位置信息,预测当前注视点的位置。3)分割LoRA:作为辅助组件,用于更精确地定位被指代的对象。整体流程是,VLM提取特征后,HESD结合历史信息和分割LoRA的输出,预测下一个注视点。
关键创新:论文的关键创新在于:1)提出了历史增强眼动轨迹解码器(HESD),直接利用历史注视点的位置信息进行预测。2)引入了冻结的分割LoRA作为辅助组件,增强模型对目标对象位置的感知,且计算成本较低。3)将VLM与HESD和分割LoRA相结合,实现了更有效的多模态信息融合。
关键设计:HESD的设计中,历史注视点的位置信息被直接输入到解码器中,用于指导当前注视点的预测。分割LoRA采用冻结的权重,避免了额外的训练成本。损失函数方面,可能采用了交叉熵损失或类似的损失函数,用于优化眼动轨迹的预测结果。具体的网络结构细节,例如VLM的具体选择(CLIP等),HESD的具体网络层数和连接方式,以及分割LoRA的结构等,需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ScanVLA模型在目标指代引导的眼动轨迹预测任务上显著优于现有的方法。具体的性能提升数据需要在论文中查找,但摘要中明确指出ScanVLA能够“significantly outperform existing scanpath prediction methods under object referring”,表明该模型具有显著的优势。
🎯 应用场景
该研究成果可应用于人机交互、智能监控、广告推荐等领域。例如,在人机交互中,可以预测用户的关注点,从而提供更个性化的服务。在智能监控中,可以预测监控人员的关注区域,提高监控效率。在广告推荐中,可以预测用户的兴趣点,从而进行更精准的广告投放。未来,该技术有望进一步提升人机协作的效率和智能化水平。
📄 摘要(原文)
Object Referring-guided Scanpath Prediction (ORSP) aims to predict the human attention scanpath when they search for a specific target object in a visual scene according to a linguistic description describing the object. Multimodal information fusion is a key point of ORSP. Therefore, we propose a novel model, ScanVLA, to first exploit a Vision-Language Model (VLM) to extract and fuse inherently aligned visual and linguistic feature representations from the input image and referring expression. Next, to enhance the ScanVLA's perception of fine-grained positional information, we not only propose a novel History Enhanced Scanpath Decoder (HESD) that directly takes historical fixations' position information as input to help predict a more reasonable position for the current fixation, but also adopt a frozen Segmentation LoRA as an auxiliary component to help localize the referred object more precisely, which improves the scanpath prediction task without incurring additional large computational and time costs. Extensive experimental results demonstrate that ScanVLA can significantly outperform existing scanpath prediction methods under object referring.