Towards Safe Mobility: A Unified Transportation Foundation Model enabled by Open-Ended Vision-Language Dataset

📄 arXiv: 2604.22260v1 📥 PDF

作者: Wenhui Huang, Songyan Zhang, Collister Chua, Yang Liang, Zhiqi Mao, Heng Yang, Chen Lv

分类: cs.CV, cs.AI

发布日期: 2026-04-24


💡 一句话要点

提出UniVLT:基于开放域视觉-语言数据集的统一交通基础模型,提升城市交通安全。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通安全 视觉问答 多模态学习 交通基础模型 智能交通系统

📋 核心要点

  1. 现有智能交通系统研究主要集中于微观自动驾驶,缺乏对城市级交通安全分析的关注,特别是开放域视觉问答能力不足。
  2. 论文提出Land Transportation Dataset (LTD) 和 UniVLT 模型,旨在统一微观自动驾驶推理和宏观交通分析,提升交通安全。
  3. 实验结果表明,UniVLT 在 LTD 和多个自动驾驶基准测试中,开放域推理任务上达到了 SOTA 性能。

📝 摘要(中文)

城市交通系统面临日益增长的安全挑战,需要可扩展的智能来支持新兴的智能交通基础设施。虽然最近在基础模型和大规模多模态数据集方面的进展加强了智能交通系统(ITS)中的感知和推理能力,但现有的研究主要集中在微观自动驾驶(AD)上,对城市规模的交通分析关注有限。特别是,面向开放域的、安全导向的视觉问答(VQA)以及用于推理异构路侧摄像头观测结果的相应基础模型仍未得到充分探索。为了解决这一差距,我们引入了陆地交通数据集(LTD),这是一个大规模的开源视觉-语言数据集,用于城市交通环境中的开放域推理。LTD包含1.16万个高质量的VQA对,这些数据来自异构的路侧摄像头,涵盖了不同的道路几何形状、交通参与者、照明条件和恶劣天气。该数据集集成了三个互补的任务:细粒度的多目标定位、多图像摄像头选择和多图像风险分析,需要对最小相关的视图进行联合推理,以推断危险物体、促成因素和有风险的道路方向。为了确保标注的准确性,我们结合了多模型视觉-语言生成、交叉验证和人工循环改进。在LTD的基础上,我们进一步提出了UniVLT,一个通过基于课程的知识迁移训练的交通基础模型,以统一单个架构中的微观AD推理和宏观交通分析。在LTD和多个AD基准上的大量实验表明,UniVLT在不同领域的开放域推理任务上实现了SOTA性能,同时暴露了现有基础模型在复杂多视图交通场景中的局限性。

🔬 方法详解

问题定义:现有智能交通系统研究主要集中在自动驾驶车辆的感知和决策,缺乏对城市级别交通安全态势的全面理解。现有方法难以处理来自异构路侧摄像头的复杂、开放域的视觉问答,无法有效进行风险分析和安全预测。

核心思路:论文的核心思路是构建一个统一的交通基础模型,能够同时处理微观的自动驾驶任务和宏观的交通分析任务。通过大规模的视觉-语言数据集LTD进行训练,使模型具备理解和推理复杂交通场景的能力,从而提升交通安全。

技术框架:UniVLT 的整体架构包含视觉编码器、文本编码器和多模态融合模块。视觉编码器负责提取路侧摄像头图像的特征,文本编码器负责编码问题描述。多模态融合模块将视觉和文本特征进行融合,用于回答视觉问题,并进行风险分析。训练过程采用基于课程的知识迁移策略,首先在简单的任务上进行预训练,然后逐步迁移到更复杂的任务上。

关键创新:论文的关键创新在于提出了一个统一的交通基础模型UniVLT,能够同时处理微观自动驾驶和宏观交通分析任务。此外,论文还构建了一个大规模的开放域视觉-语言数据集LTD,为训练和评估交通基础模型提供了数据支撑。与现有方法相比,UniVLT 能够更好地处理复杂的多视图交通场景,进行更准确的风险分析。

关键设计:LTD数据集包含1.16万个VQA对,涵盖了不同的道路几何形状、交通参与者、照明条件和恶劣天气。数据集集成了三个互补的任务:细粒度的多目标定位、多图像摄像头选择和多图像风险分析。UniVLT模型采用Transformer架构,使用预训练的视觉和文本编码器进行初始化。损失函数包括视觉问答损失、目标检测损失和风险分类损失。训练过程中,采用数据增强技术来提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniVLT 在 LTD 数据集上取得了 SOTA 性能,并在多个自动驾驶基准测试中表现出色。实验结果表明,UniVLT 能够有效处理复杂的多视图交通场景,进行准确的风险分析。例如,在多图像风险分析任务上,UniVLT 的准确率比现有方法提高了显著。

🎯 应用场景

该研究成果可应用于智能交通管理系统,提升城市交通安全水平。例如,通过分析路侧摄像头数据,可以实时识别交通风险,预测潜在事故,并采取相应的干预措施。此外,该模型还可以用于自动驾驶车辆的感知和决策,提高自动驾驶系统的安全性。

📄 摘要(原文)

Urban transportation systems face growing safety challenges that require scalable intelligence for emerging smart mobility infrastructures. While recent advances in foundation models and large-scale multimodal datasets have strengthened perception and reasoning in intelligent transportation systems (ITS), existing research remains largely centered on microscopic autonomous driving (AD), with limited attention to city-scale traffic analysis. In particular, open-ended safety-oriented visual question answering (VQA) and corresponding foundation models for reasoning over heterogeneous roadside camera observations remain underexplored. To address this gap, we introduce the Land Transportation Dataset (LTD), a large-scale open-source vision-language dataset for open-ended reasoning in urban traffic environments. LTD contains 11.6K high-quality VQA pairs collected from heterogeneous roadside cameras, spanning diverse road geometries, traffic participants, illumination conditions, and adverse weather. The dataset integrates three complementary tasks: fine-grained multi-object grounding, multi-image camera selection, and multi-image risk analysis, requiring joint reasoning over minimally correlated views to infer hazardous objects, contributing factors, and risky road directions. To ensure annotation fidelity, we combine multi-model vision-language generation with cross-validation and human-in-the-loop refinement. Building upon LTD, we further propose UniVLT, a transportation foundation model trained via curriculum-based knowledge transfer to unify microscopic AD reasoning and macroscopic traffic analysis within a single architecture. Extensive experiments on LTD and multiple AD benchmarks demonstrate that UniVLT achieves SOTA performance on open-ended reasoning tasks across diverse domains, while exposing limitations of existing foundation models in complex multi-view traffic scenarios.