From Scene to Object: Text-Guided Dual-Gaze Prediction
作者: Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-04-22
💡 一句话要点
提出DualGaze-VLM,解决自动驾驶中文本引导下的细粒度驾驶员注意力预测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 驾驶员注意力预测 物体级别标注 视觉-语言模型 自动驾驶 多模态融合 语义理解 空间对齐
📋 核心要点
- 现有驾驶员注意力预测数据集缺乏物体级别的标注,限制了文本引导的认知建模,导致视觉-语言模型出现文本-视觉解耦和视觉偏差幻觉。
- 论文提出DualGaze-VLM,通过双分支结构,利用语义查询动态调节视觉特征,实现意图驱动的精确空间定位,从而预测物体级别的驾驶员注意力。
- 实验结果表明,DualGaze-VLM在空间对齐指标上显著优于现有模型,尤其在安全关键场景下提升明显,且生成的注意力热图更符合人类认知。
📝 摘要(中文)
本文提出了一种新的双分支注视预测框架,旨在实现精确的物体级别注意力预测,从而解决现有数据集缺乏细粒度物体级别标注的问题。首先,构建了一个名为G-W3DA的物体级别驾驶员注意力数据集,该数据集通过将多模态大型语言模型与Segment Anything Model 3 (SAM3)集成,将宏观热图解耦为物体级别的掩码,从而消除了标注幻觉。其次,提出了DualGaze-VLM架构,该架构提取语义查询的隐藏状态,并通过条件感知SE-Gate动态调节视觉特征,实现意图驱动的精确空间锚定。在W3DA基准上的实验表明,DualGaze-VLM在空间对齐指标上始终优于现有的SOTA模型,在安全关键场景下,相似度(SIM)指标提升高达17.8%。视觉图灵测试表明,88.22%的人类评估者认为DualGaze-VLM生成的注意力热图是真实的,证明了其生成合理认知先验的能力。
🔬 方法详解
问题定义:现有驾驶员注意力预测方法主要依赖于场景级别的全局注视数据,缺乏细粒度的物体级别标注。这导致视觉-语言模型在进行文本引导的注意力预测时,容易出现文本-视觉解耦和视觉偏差幻觉,无法准确捕捉驾驶员对特定物体的关注。
核心思路:论文的核心思路是构建一个高质量的物体级别驾驶员注意力数据集,并在此基础上设计一个能够有效融合文本语义信息和视觉特征的模型。通过解耦宏观热图为物体级别的掩码,并利用语义查询动态调节视觉特征,实现意图驱动的精确空间锚定。
技术框架:整体框架包含两个主要部分:数据构建和模型架构。数据构建部分,利用多模态大型语言模型和SAM3将场景级别的热图分解为物体级别的掩码,构建G-W3DA数据集。模型架构部分,DualGaze-VLM包含两个分支,一个处理文本语义查询,另一个处理视觉特征。通过Condition-Aware SE-Gate将语义查询的隐藏状态动态地融入视觉特征中。
关键创新:论文的关键创新在于:1) 构建了高质量的物体级别驾驶员注意力数据集G-W3DA,解决了数据标注的瓶颈问题。2) 提出了DualGaze-VLM架构,通过Condition-Aware SE-Gate实现了文本语义信息和视觉特征的有效融合,从而提升了注意力预测的准确性。
关键设计:Condition-Aware SE-Gate是关键设计之一,它根据文本语义查询的隐藏状态动态地调整视觉特征的权重,从而实现意图驱动的注意力预测。具体的实现方式是,首先将语义查询的隐藏状态输入到一个全连接层,生成一个权重向量,然后将该权重向量应用于视觉特征的每个通道,从而实现通道级别的注意力。
🖼️ 关键图片
📊 实验亮点
DualGaze-VLM在W3DA基准测试中表现出色,在空间对齐指标上显著优于现有SOTA模型。在安全关键场景下,相似度(SIM)指标提升高达17.8%。此外,视觉图灵测试表明,88.22%的人类评估者认为DualGaze-VLM生成的注意力热图是真实的,证明了其生成合理认知先验的能力。
🎯 应用场景
该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,提升系统对驾驶员意图的理解和预测能力,从而提高驾驶安全性。此外,该方法也可推广到其他需要细粒度注意力预测的领域,例如人机交互、智能监控等。
📄 摘要(原文)
Interpretable driver attention prediction is crucial for human-like autonomous driving. However, existing datasets provide only scene-level global gaze rather than fine-grained object-level annotations, inherently failing to support text-grounded cognitive modeling. Consequently, while Vision-Language Models (VLMs) hold great potential for semantic reasoning, this critical data limitations leads to severe text-vision decoupling and visual-bias hallucinations. To break this bottleneck and achieve precise object-level attention prediction, this paper proposes a novel dual-branch gaze prediction framework, establishing a complete paradigm from data construction to model architecture. First, we construct G-W3DA, a object-level driver attention dataset. By integrating a multimodal large language model with the Segment Anything Model 3 (SAM3), we decouple macroscopic heatmaps into object-level masks under rigorous cross-validation, fundamentally eliminating annotation hallucinations. Building upon this high-quality data foundation, we propose the DualGaze-VLM architecture. This architecture extracts the hidden states of semantic queries and dynamically modulates visual features via a Condition-Aware SE-Gate, achieving intent-driven precise spatial anchoring. Extensive experiments on the W3DA benchmark demonstrate that DualGaze-VLM consistently surpasses existing state-of-the-art (SOTA) models in spatial alignment metrics, notably achieving up to a 17.8% improvement in Similarity (SIM) under safety-critical scenarios. Furthermore, a visual Turing test reveals that the attention heatmaps generated by DualGaze-VLM are perceived as authentic by 88.22% of human evaluators, proving its capability to generate rational cognitive priors.