DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning
作者: Weimin Liu, Qingkun Li, Jiyuan Qiu, Wenjun Wang, Joshua H. Meng
分类: cs.CV, cs.AI
发布日期: 2026-03-30
💡 一句话要点
DiffAttn:基于扩散模型和LLM增强语义推理的驾驶员视觉注意力预测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 驾驶员注意力预测 扩散模型 大型语言模型 智能车辆 计算机视觉
📋 核心要点
- 驾驶员视觉注意力对于预测潜在危险至关重要,其缺失会危及交通安全,因此准确预测驾驶员注意力至关重要。
- DiffAttn利用扩散模型将注意力预测建模为条件去噪过程,并结合Swin Transformer、特征融合金字塔和LLM来提升性能。
- 实验结果表明,DiffAttn在四个公共数据集上超越了现有方法,实现了最先进的性能,证明了其有效性。
📝 摘要(中文)
本文提出DiffAttn,一个基于扩散模型的框架,用于预测驾驶员的视觉注意力。该框架将注意力预测任务建模为条件扩散-去噪过程,从而更准确地模拟驾驶员的注意力模式。DiffAttn采用Swin Transformer作为编码器,并设计了一个解码器,该解码器结合了特征融合金字塔,用于跨层交互,并结合密集的多尺度条件扩散,以共同增强去噪学习并建模精细的局部和全局场景上下文。此外,还引入了一个大型语言模型(LLM)层,以增强自上而下的语义推理,并提高对安全关键线索的敏感性。在四个公共数据集上的大量实验表明,DiffAttn实现了最先进(SoTA)的性能,超过了大多数基于视频、自上而下特征驱动和LLM增强的基线。该框架还支持可解释的以驾驶员为中心的场景理解,并有可能改善智能车辆中的舱内人机交互、风险感知和驾驶员状态测量。
🔬 方法详解
问题定义:现有的驾驶员视觉注意力预测方法难以准确捕捉驾驶员的复杂感知模式,尤其是在理解场景的全局语义信息和对安全关键线索的敏感性方面存在不足。传统方法可能无法充分利用上下文信息,导致预测精度受限。
核心思路:DiffAttn的核心思路是将驾驶员视觉注意力预测问题转化为一个条件扩散-去噪过程。通过扩散过程逐步向图像添加噪声,然后通过去噪过程学习如何从噪声中恢复原始的注意力图。这种方法能够更有效地建模驾驶员注意力的复杂分布,并利用LLM增强语义理解。
技术框架:DiffAttn框架主要包含以下几个模块:1) Swin Transformer编码器:用于提取输入图像的局部和全局特征。2) 特征融合金字塔解码器:用于跨层融合不同尺度的特征,并结合密集的多尺度条件扩散来增强去噪学习。3) 大型语言模型(LLM)层:用于增强自上而下的语义推理,提高对安全关键线索的敏感性。整个流程是先通过编码器提取特征,然后通过解码器和LLM进行注意力预测。
关键创新:DiffAttn的关键创新在于将扩散模型引入驾驶员视觉注意力预测任务,并结合LLM来增强语义理解。与传统的基于分类或回归的方法不同,DiffAttn能够更灵活地建模注意力的复杂分布。此外,LLM的引入使得模型能够更好地理解场景的语义信息,从而提高预测精度。
关键设计:DiffAttn的关键设计包括:1) 采用Swin Transformer作为编码器,以有效捕捉局部和全局特征。2) 设计特征融合金字塔解码器,实现跨层特征交互和多尺度条件扩散。3) 引入LLM层,利用其强大的语义理解能力。4) 损失函数的设计旨在优化去噪过程,并鼓励模型生成更准确的注意力图。
🖼️ 关键图片
📊 实验亮点
DiffAttn在四个公共数据集上取得了最先进的性能,显著超越了现有的基于视频、自上而下特征驱动和LLM增强的基线方法。具体性能数据未在摘要中给出,但强调了其超越现有技术的优越性,证明了扩散模型和LLM结合在驾驶员视觉注意力预测方面的有效性。
🎯 应用场景
DiffAttn在智能车辆领域具有广泛的应用前景,可用于改善舱内人机交互、提升风险感知能力和更准确地测量驾驶员状态。通过预测驾驶员的视觉注意力,系统可以更好地理解驾驶员的意图,并提供更智能的辅助驾驶功能,从而提高驾驶安全性。
📄 摘要(原文)
Drivers' visual attention provides critical cues for anticipating latent hazards and directly shapes decision-making and control maneuvers, where its absence can compromise traffic safety. To emulate drivers' perception patterns and advance visual attention prediction for intelligent vehicles, we propose DiffAttn, a diffusion-based framework that formulates this task as a conditional diffusion-denoising process, enabling more accurate modeling of drivers' attention. To capture both local and global scene features, we adopt Swin Transformer as encoder and design a decoder that combines a Feature Fusion Pyramid for cross-layer interaction with dense, multi-scale conditional diffusion to jointly enhance denoising learning and model fine-grained local and global scene contexts. Additionally, a large language model (LLM) layer is incorporated to enhance top-down semantic reasoning and improve sensitivity to safety-critical cues. Extensive experiments on four public datasets demonstrate that DiffAttn achieves state-of-the-art (SoTA) performance, surpassing most video-based, top-down-feature-driven, and LLM-enhanced baselines. Our framework further supports interpretable driver-centric scene understanding and has the potential to improve in-cabin human-machine interaction, risk perception, and drivers' state measurement in intelligent vehicles.