VLM-VPI: A Vision-Language Reasoning Framework for Improving Automated Vehicle-Pedestrian Interactions

📄 arXiv: 2604.23934v1 📥 PDF

作者: Qingwen Pu, Kun Xie, Yuxiang Liu

分类: eess.SY

发布日期: 2026-04-27

备注: 40 pages, 7 figures, 10 tables


💡 一句话要点

提出VLM-VPI框架,提升自动驾驶车辆与行人交互中的意图理解和控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 车辆行人交互 意图预测 视觉语言模型 多模态融合

📋 核心要点

  1. 现有自动驾驶系统仅依赖几何和运动学线索推断行人避让行为,缺乏对视觉场景上下文和年龄相关行为差异的理解。
  2. VLM-VPI框架结合视觉和运动学信息,利用视觉-语言模型进行场景理解和意图推理,并采用分层安全控制器。
  3. 实验表明,VLM-VPI在模拟和真实场景中均显著提升了意图分类准确率,降低了误报率和冲突次数。

📝 摘要(中文)

本文提出了一种基于视觉-语言模型的车辆-行人交互(VLM-VPI)多模态推理框架,旨在提升自动驾驶系统中行人意图理解和避让控制能力。该系统结合了三个组成部分:多模态感知层,用于捕获视觉和运动学观测;推理层,利用Qwen3-VL 8B进行视觉场景理解,GPT-OSS 20B进行小样本意图推理;以及分层安全控制器,针对儿童、成人和老年人应用特定年龄的制动裕度。在112个CARLA场景中,VLM-VPI实现了92.3%的意图分类准确率,优于基于规则的基线(78.4%)、监督轨迹模型(73.5-82.4%)和零样本LLM配置(88.4%)。在24个真实PIE场景中的验证产生了87.5%的准确率,表明了良好的sim-to-real迁移能力。在200个模拟案例中,VLM-VPI将误报率从7.4%降低到2.8%,平均交叉口通过时间从13.5秒减少到11.8秒。冲突发生次数从124次减少到33次,而平均最小碰撞时间从1.92秒提高到4.47秒。与统一控制相比,人口统计学自适应控制进一步减少了儿童60%和老年人54.5%的冲突。这些结果表明,显式的视觉-语言推理层可以通过连接行人意图、人口统计学背景和车辆控制决策来提高安全性和效率。

🔬 方法详解

问题定义:自动驾驶车辆与行人交互时,仅依赖几何和运动学信息进行决策,无法充分理解行人的意图,导致不必要的制动或安全隐患。现有方法难以有效处理复杂的视觉场景和行人行为的多样性,尤其是在不同年龄段行人表现出不同行为模式时。

核心思路:利用视觉-语言模型(VLM)强大的场景理解和推理能力,结合运动学信息,更准确地预测行人的意图。通过显式地建模视觉场景上下文和年龄相关行为差异,提升自动驾驶系统的决策能力。

技术框架:VLM-VPI框架包含三个主要模块:1) 多模态感知层:提取视觉和运动学特征;2) 推理层:使用Qwen3-VL 8B进行视觉场景理解,GPT-OSS 20B进行小样本意图推理;3) 分层安全控制器:根据行人年龄(儿童、成人、老年人)设置不同的制动裕度,实现个性化的安全控制策略。

关键创新:将视觉-语言模型引入车辆-行人交互领域,利用VLM进行场景理解和意图推理,克服了传统方法仅依赖几何和运动学信息的局限性。此外,针对不同年龄段行人设计了自适应的安全控制策略,提升了系统的安全性和效率。

关键设计:推理层采用Qwen3-VL 8B和GPT-OSS 20B两个大型语言模型,前者负责视觉场景理解,后者负责意图推理。分层安全控制器根据不同年龄段行人的行为特征,设置不同的制动裕度,例如,儿童的制动裕度通常大于成人。具体参数设置和损失函数细节未知。

📊 实验亮点

VLM-VPI在CARLA模拟环境中实现了92.3%的意图分类准确率,显著优于基于规则的基线(78.4%)和监督轨迹模型(73.5-82.4%)。在真实PIE场景中也达到了87.5%的准确率,表明了良好的泛化能力。此外,VLM-VPI显著降低了误报率(从7.4%到2.8%)和冲突次数(从124次到33次),并提升了平均最小碰撞时间(从1.92秒到4.47秒)。

🎯 应用场景

该研究成果可应用于提升自动驾驶车辆在城市道路等复杂环境中的安全性和效率,尤其是在行人密集的区域。通过更准确地理解行人意图,减少不必要的制动,提升乘客舒适度,并降低交通事故风险。该技术还可应用于辅助驾驶系统,为驾驶员提供更智能的决策支持。

📄 摘要(原文)

Autonomous driving systems often infer pedestrian yielding behavior from geometric and kinematic cues alone, limiting their ability to reason about visual scene context and age-dependent behavioral variability. This limitation can produce delayed interventions in safety-critical encounters and unnecessary braking in benign interactions. This work introduces Vision-Language Model-based Vehicle-Pedestrian Interaction (VLM-VPI), a multimodal reasoning framework for pedestrian intent understanding and yielding-aware control in autonomous driving. The system combines three components: a multimodal perception layer that captures visual and kinematic observations, a reasoning layer that uses Qwen3-VL 8B for visual scene understanding and GPT-OSS 20B for few-shot intent reasoning, and a tiered safety controller that applies age-specific braking margins for children, adults, and seniors. In 112 CARLA scenarios, VLM-VPI achieves 92.3% intent classification accuracy, outperforming a rule-based baseline (78.4%), supervised trajectory models (73.5-82.4%), and a zero-shot LLM configuration (88.4%). Validation on 24 real-world PIE scenarios yields 87.5% accuracy, indicating functional sim-to-real transferability. Across 200 simulation cases, VLM-VPI reduces the false-alarm rate from 7.4% to 2.8% and mean intersection traversal time from 13.5 s to 11.8 s. Conflict occurrences decrease from 124 to 33, while mean minimum time-to-collision improves from 1.92 s to 4.47 s. Demographic-adaptive control further reduces conflicts by 60% for children and 54.5% for seniors compared with uniform control. These results show that an explicit vision-language reasoning layer can improve both safety and efficiency by linking pedestrian intent, demographic context, and vehicle control decisions.