Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues

📄 arXiv: 2507.21161v1 📥 PDF

作者: Pallavi Zambare, Venkata Nikhil Thanikella, Ying Liu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-07-25

备注: Accepted in IEEE 3rd International Conference on Artificial Intelligence, Blockchain, and Internet of Things (AIBThings 2025)


💡 一句话要点

提出BF-PIP,利用时序视频和多模态提示实现零样本行人意图预测

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行人意图预测 零样本学习 时序视频 多模态融合 大型语言模型 自动驾驶 智能交通

📋 核心要点

  1. 传统行人意图预测依赖有监督学习,需大量重训练以适应新场景,缺乏泛化能力。
  2. BF-PIP利用Gemini 2.5 Pro,直接处理时序视频,结合多模态提示,实现零样本意图预测。
  3. 实验表明,BF-PIP无需额外训练,预测准确率达73%,显著优于GPT-4V基线。

📝 摘要(中文)

本文提出了一种名为BF-PIP(超越帧的行人意图预测)的零样本方法,它基于Gemini 2.5 Pro,直接从短时连续视频片段中推断行人过马路的意图,并结合结构化的JAAD元数据进行增强。与基于GPT-4V的离散帧方法不同,BF-PIP处理不间断的时序视频片段。它还通过专门的多模态提示整合了边界框标注和自车速度信息。在没有任何额外训练的情况下,BF-PIP实现了73%的预测准确率,超过了GPT-4V基线18%。这些发现表明,将时序视频输入与上下文线索相结合,可以增强时空感知,并提高在模糊条件下的意图推断能力。该方法为智能交通系统中的敏捷、免再训练的感知模块铺平了道路。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中行人意图预测问题,现有方法依赖于大量标注数据和有监督学习,泛化能力差,难以适应新的场景。基于离散帧的方法忽略了时序信息,导致意图判断不准确。

核心思路:论文的核心思路是利用大型语言模型(LLM)Gemini 2.5 Pro的强大理解能力,直接从原始时序视频中提取行人意图,无需额外的训练。通过结合多模态信息(如边界框、自车速度),增强LLM对场景的理解,提高预测准确率。

技术框架:BF-PIP的整体框架包括以下几个主要步骤:1)输入:短时连续视频片段,以及JAAD元数据(包括行人边界框和自车速度)。2)多模态提示:将视频片段、边界框和自车速度信息通过专门设计的提示输入到Gemini 2.5 Pro中。3)意图预测:Gemini 2.5 Pro根据输入信息,直接预测行人的过马路意图。

关键创新:最重要的技术创新点在于利用LLM的零样本学习能力,直接从原始时序视频中预测行人意图,避免了传统方法中耗时耗力的标注和训练过程。此外,通过多模态提示,将视觉信息和上下文信息有效结合,提高了LLM的感知能力。

关键设计:论文中关键的设计包括:1)视频片段的长度:选择合适的视频片段长度,以捕捉行人的行为变化。2)多模态提示的设计:设计有效的提示,将视频信息、边界框和自车速度信息有效地传递给LLM。3)JAAD数据集的使用:利用JAAD数据集提供的行人行为标注,评估BF-PIP的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BF-PIP在JAAD数据集上进行了评估,结果表明,在没有任何额外训练的情况下,BF-PIP实现了73%的行人意图预测准确率,相比于基于GPT-4V的基线方法,性能提升了18%。这表明,利用时序视频和多模态提示,可以显著提高零样本行人意图预测的准确性。

🎯 应用场景

该研究成果可应用于自动驾驶系统、高级驾驶辅助系统(ADAS)以及智能交通管理等领域。通过准确预测行人意图,可以提高自动驾驶车辆的安全性,减少交通事故的发生。此外,该方法无需大量训练数据,可以快速部署到新的场景中,具有很高的实用价值和应用前景。

📄 摘要(原文)

Pedestrian intention prediction is essential for autonomous driving in complex urban environments. Conventional approaches depend on supervised learning over frame sequences and require extensive retraining to adapt to new scenarios. Here, we introduce BF-PIP (Beyond Frames Pedestrian Intention Prediction), a zero-shot approach built upon Gemini 2.5 Pro. It infers crossing intentions directly from short, continuous video clips enriched with structured JAAD metadata. In contrast to GPT-4V based methods that operate on discrete frames, BF-PIP processes uninterrupted temporal clips. It also incorporates bounding-box annotations and ego-vehicle speed via specialized multimodal prompts. Without any additional training, BF-PIP achieves 73% prediction accuracy, outperforming a GPT-4V baseline by 18 %. These findings illustrate that combining temporal video inputs with contextual cues enhances spatiotemporal perception and improves intent inference under ambiguous conditions. This approach paves the way for agile, retraining-free perception module in intelligent transportation system.