Pedestrian Intention Prediction via Vision-Language Foundation Models
作者: Mohsen Azarmi, Mahdi Rezaei, He Wang
分类: cs.CV, cs.AI, cs.ET, cs.LG, cs.RO
发布日期: 2025-07-05
💡 一句话要点
提出基于视觉-语言基础模型的行人意图预测方法,提升自动驾驶场景下的预测精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 行人意图预测 视觉-语言基础模型 多模态融合 自动驾驶 提示工程
📋 核心要点
- 传统视觉方法在行人意图预测中泛化性不足,难以有效理解上下文和进行因果推理。
- 利用视觉-语言基础模型,通过精心设计的提示模板融合视觉、物理和社会线索等多模态信息。
- 实验表明,结合车辆速度和时间信息的提示以及自动提示工程能显著提升预测准确率。
📝 摘要(中文)
本文研究了视觉-语言基础模型(VLFMs)在行人过马路意图预测中的潜力,该预测是自动驾驶车辆的关键功能。传统的基于视觉的意图预测方法通常在泛化性、上下文理解和因果推理方面存在困难。本文通过分层提示模板整合多模态数据,将视觉帧、物理线索观察和自车动力学等上下文信息融入到系统优化的提示中,有效地指导VLFMs进行意图预测。在JAAD、PIE和FU-PIP三个常用数据集上的实验结果表明,结合车辆速度、速度变化以及时间敏感的提示,可显著提高预测精度,最高可达19.8%。此外,通过自动提示工程框架生成的最优提示进一步提高了12.5%的准确率。这些发现突显了VLFMs相对于传统视觉模型的优越性能,为自动驾驶应用提供了更强的泛化能力和上下文理解能力。
🔬 方法详解
问题定义:论文旨在解决自动驾驶场景下行人过马路意图预测的问题。现有基于视觉的方法难以泛化到不同的场景和行人行为,缺乏对上下文信息的有效利用,并且难以进行因果推理,导致预测精度不高。
核心思路:论文的核心思路是利用视觉-语言基础模型(VLFMs)强大的多模态理解能力,将视觉信息(图像帧)、物理线索(行人姿态、位置)和自车状态(速度、加速度)等多模态信息融合起来,通过精心设计的提示(prompts)引导VLFMs进行意图预测。这样可以更好地利用上下文信息,提高预测的准确性和泛化能力。
技术框架:整体框架包括以下几个主要步骤:1) 数据输入:输入包括视觉帧、行人物理线索(例如,位置、速度)和自车动力学信息(例如,速度、加速度)。2) 提示工程:设计分层提示模板,将多模态信息编码成自然语言提示。3) VLFMs预测:将提示输入到VLFMs中,得到行人意图的预测结果。4) 优化:使用自动提示工程框架优化提示,进一步提高预测精度。
关键创新:最重要的技术创新点在于将视觉-语言基础模型引入行人意图预测任务,并设计了有效的分层提示模板,将多模态信息融合到提示中。与传统的基于视觉的模型相比,VLFMs具有更强的上下文理解能力和泛化能力。此外,自动提示工程框架可以自动搜索最优的提示,进一步提高预测精度。
关键设计:论文中关键的设计包括:1) 分层提示模板:根据不同的信息类型(视觉、物理、自车状态)设计不同的提示模板,并将它们组合成一个分层的提示。2) 时间敏感的提示:在提示中加入时间信息,例如“在第t帧,行人...”,以帮助模型理解行人行为的时间序列特征。3) 自动提示工程框架:使用强化学习或进化算法等方法自动搜索最优的提示,以最大化预测精度。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,结合车辆速度、速度变化以及时间敏感的提示,可以显著提高预测精度,最高可达19.8%。通过自动提示工程框架生成的最优提示进一步提高了12.5%的准确率。VLFMs在JAAD、PIE和FU-PIP三个常用数据集上均表现出优于传统视觉模型的性能。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的行人行为预测模块,提高车辆在复杂城市环境中的安全性。更准确的行人意图预测能够帮助自动驾驶系统做出更合理的决策,例如提前减速或避让行人,从而减少交通事故的发生。此外,该方法也可以应用于智能监控、机器人导航等领域。
📄 摘要(原文)
Prediction of pedestrian crossing intention is a critical function in autonomous vehicles. Conventional vision-based methods of crossing intention prediction often struggle with generalizability, context understanding, and causal reasoning. This study explores the potential of vision-language foundation models (VLFMs) for predicting pedestrian crossing intentions by integrating multimodal data through hierarchical prompt templates. The methodology incorporates contextual information, including visual frames, physical cues observations, and ego-vehicle dynamics, into systematically refined prompts to guide VLFMs effectively in intention prediction. Experiments were conducted on three common datasets-JAAD, PIE, and FU-PIP. Results demonstrate that incorporating vehicle speed, its variations over time, and time-conscious prompts significantly enhances the prediction accuracy up to 19.8%. Additionally, optimised prompts generated via an automatic prompt engineering framework yielded 12.5% further accuracy gains. These findings highlight the superior performance of VLFMs compared to conventional vision-based models, offering enhanced generalisation and contextual understanding for autonomous driving applications.