Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

📄 arXiv: 2606.09142v1 📥 PDF

作者: Danya Li, Xiang Su, Yan Feng, Rico Krueger

分类: cs.CV, cs.AI

发布日期: 2026-06-08


💡 一句话要点

通过视觉语言模型解码行人过马路意图

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自视角视频 行人意图解码 视觉语言模型 交通安全 多模态融合

📋 核心要点

  1. 现有方法在交通安全预测中对自视角视频的潜力探索不足,尤其是在行人过马路意图解码方面存在挑战。
  2. 本研究将行人过马路意图解码任务形式化为视觉问答问题,并通过视觉语言模型进行预测,采用参数高效的微调方法。
  3. 实验结果表明,微调后的模型在准确率上较零样本模型有显著提升,特别是结合上下文线索后,性能进一步增强。

📝 摘要(中文)

本研究探讨了如何从短时的自视角视频片段中解码行人的过马路意图,利用视觉语言模型将此任务形式化为封闭式视觉问答问题。我们首先在零样本设置下基准测试了三类最先进的视觉语言模型,发现它们在随机猜测上有适度提升,但在更高层次的交通推理方面表现有限。通过参数高效的微调,我们的结果显示,微调后的模型显著超越了零样本模型,并在专门的基于变换器的基线模型上实现了9%的准确率提升。最后,加入额外的上下文线索,如自我运动、车辆运动和眼动,进一步提高了预测性能,特别是微调后的Qwen3-VL-2B模型在眼动和自我运动的指导下,较变换器基线模型实现了14.5%的准确率提升,确立了自视角行人意图解码的新状态。

🔬 方法详解

问题定义:本研究旨在解码行人在自视角视频中的过马路意图,现有方法在交通推理能力上存在局限,未能充分利用自视角信息。

核心思路:我们将行人意图解码任务视为封闭式视觉问答问题,利用视觉语言模型(VLMs)进行预测,并通过参数高效的微调来提升模型性能。

技术框架:整体框架包括三个主要阶段:首先是基准测试不同的VLMs;其次是对目标任务进行参数高效的微调;最后是结合上下文信息进行性能提升。

关键创新:本研究的创新点在于通过微调VLMs来提高行人意图解码的准确性,并首次将眼动和自我运动信息整合进模型中,显著提升了预测性能。

关键设计:在微调过程中,我们采用了特定的损失函数和网络结构设计,以确保模型能够有效学习行人意图与上下文信息之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,微调后的Qwen3-VL-2B模型在结合眼动和自我运动信息后,较变换器基线模型实现了14.5%的准确率提升,确立了自视角行人意图解码的新状态,展示了该方法在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能交通系统、自动驾驶车辆和行人安全监测等。通过准确解码行人过马路意图,可以显著提高交通安全性,减少事故发生率,具有重要的实际价值和社会影响。未来,该技术还可以扩展到其他场景,如人机交互和智能监控等。

📄 摘要(原文)

Egocentric vision offers a first-person view of human perception and decision making, yet its potential for traffic-safety prediction remains underexplored. In this work, we study the decoding of pedestrian crossing intentions from short egocentric video clips. We approach this by formulating the task as a closed-ended visual question answering (VQA) problem and leveraging vision language models (VLMs) to predict the pedestrians' intent. We first benchmark three families of state-of-the-art VLMs in a zero-shot setting, finding that they achieve moderate gains over random guessing but exhibit limited higher-level traffic reasoning. Motivated by these findings, we further adapt VLMs to the target task using parameter-efficient fine-tuning. Our results show that the fine-tuned models substantially outperform their zero-shot counterparts and achieve a 9\% accuracy improvement over a specialized transformer-based baseline. Finally, we demonstrate that incorporating additional contextual cues, including ego motion, vehicle motion, and eye gaze, further improves predictive performance. In particular, the fine-tuned Qwen3-VL-2B model guided by eye gaze and ego motion achieves a 14.5% accuracy improvement over the transformer baseline, establishing a new state of the art for egocentric pedestrian intent decoding.