ALCo-FM: Adaptive Long-Context Foundation Model for Accident Prediction
作者: Pinaki Prasad Guha Neogi, Ahmad Mohammadshirazi, Rajiv Ramnath
分类: cs.LG, cs.AI
发布日期: 2025-07-10
🔗 代码/项目: GITHUB
💡 一句话要点
提出ALCo-FM自适应长上下文模型,用于提升交通事故预测的准确性和可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 交通事故预测 长上下文建模 多模态融合 自适应上下文选择 深度学习 城市风险预测
📋 核心要点
- 现有交通事故预测方法难以有效利用长上下文多模态信息,导致预测精度受限。
- ALCo-FM通过动态选择上下文窗口和浅层交叉注意力机制,有效融合长上下文多模态数据。
- ALCo-FM在15个美国城市的数据集上取得了显著的性能提升,优于现有方法。
📝 摘要(中文)
本文提出了一种统一的自适应长上下文基础模型ALCo-FM,用于交通事故预测。该模型首先计算一个波动率预评分,以动态选择输入数据的上下文窗口。然后,通过浅层交叉注意力机制对多模态数据进行编码和融合。模型采用局部GAT层和基于H3六边形网格的BigBird风格稀疏全局Transformer,并结合蒙特卡洛dropout来评估预测置信度,从而产生更优、校准良好的预测结果。ALCo-FM在包含15个美国城市的数据集上进行训练,使用类别加权损失来解决标签不平衡问题,并在预留城市的数据上进行微调。实验结果表明,ALCo-FM实现了0.94的准确率、0.92的F1分数和0.04的ECE,优于20多个最先进的基线模型。
🔬 方法详解
问题定义:交通事故是罕见但影响重大的事件,准确预测需要对长上下文的多模态信息进行推理。现有方法难以有效利用这些信息,导致预测精度不足,尤其是在处理城市规模的风险预测时,计算效率也是一个挑战。
核心思路:ALCo-FM的核心思路是自适应地选择上下文窗口,并利用浅层交叉注意力机制融合多模态数据。通过波动率预评分动态选择上下文,关注重要信息,减少冗余计算。浅层交叉注意力降低了计算复杂度,同时保证了多模态信息的有效融合。
技术框架:ALCo-FM的整体架构包括以下几个主要模块:1) 波动率预评分模块,用于动态选择上下文窗口;2) 多模态数据编码模块,使用浅层交叉注意力机制融合不同模态的数据;3) 局部GAT层,用于捕捉局部空间关系;4) BigBird风格稀疏全局Transformer,用于捕捉全局依赖关系;5) 蒙特卡洛dropout,用于评估预测置信度。
关键创新:ALCo-FM的关键创新在于其自适应上下文选择机制和浅层交叉注意力融合方法。自适应上下文选择能够根据输入数据的波动性动态调整上下文窗口大小,从而更有效地利用长上下文信息。浅层交叉注意力机制在保证多模态信息融合效果的同时,显著降低了计算复杂度。
关键设计:ALCo-FM使用H3六边形网格对城市空间进行划分,以便更好地捕捉空间关系。损失函数采用类别加权损失,以解决标签不平衡问题。BigBird风格稀疏全局Transformer采用稀疏注意力机制,降低了计算复杂度。蒙特卡洛dropout通过多次采样来评估预测的不确定性。
🖼️ 关键图片
📊 实验亮点
ALCo-FM在包含15个美国城市的大规模数据集上进行了评估,实现了0.94的准确率、0.92的F1分数和0.04的ECE,显著优于20多个最先进的基线模型。实验结果表明,ALCo-FM能够有效利用长上下文多模态信息,提高交通事故预测的准确性和可靠性,并具有良好的校准性。
🎯 应用场景
ALCo-FM可应用于智能交通系统、城市规划和应急响应等领域。通过准确预测交通事故风险,可以提前采取预防措施,减少事故发生,提高交通安全。此外,该模型还可以用于评估城市交通网络的脆弱性,为城市规划提供决策支持,并为应急响应提供实时风险评估。
📄 摘要(原文)
Traffic accidents are rare, yet high-impact events that require long-context multimodal reasoning for accurate risk forecasting. In this paper, we introduce ALCo-FM, a unified adaptive long-context foundation model that computes a volatility pre-score to dynamically select context windows for input data and encodes and fuses these multimodal data via shallow cross attention. Following a local GAT layer and a BigBird-style sparse global transformer over H3 hexagonal grids, coupled with Monte Carlo dropout for confidence, the model yields superior, well-calibrated predictions. Trained on data from 15 US cities with a class-weighted loss to counter label imbalance, and fine-tuned with minimal data on held-out cities, ALCo-FM achieves 0.94 accuracy, 0.92 F1, and an ECE of 0.04, outperforming more than 20 state-of-the-art baselines in large-scale urban risk prediction. Code and dataset are available at: https://github.com/PinakiPrasad12/ALCo-FM