Tabular Data with Class Imbalance: Predicting Electric Vehicle Crash Severity with Pretrained Transformers (TabPFN) and Mamba-Based Models

📄 arXiv: 2509.11449v1 📥 PDF

作者: Shriyank Somvanshi, Pavan Hebli, Gaurab Chhetri, Subasish Das

分类: cs.LG, cs.AI

发布日期: 2025-09-14

备注: This is the author's preprint version of a paper accepted for presentation at the 24th International Conference on Machine Learning and Applications (ICMLA 2025), December 3-5, 2025, Florida, USA. The final published version will appear in the official IEEE proceedings. Conference site: https://www.icmla-conference.org/icmla25/


💡 一句话要点

利用预训练Transformer和Mamba模型预测电动汽车碰撞严重程度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 电动汽车安全 碰撞严重程度预测 深度表格学习 Mamba模型 类别不平衡

📋 核心要点

  1. 现有方法在处理电动汽车碰撞数据时,面临类别不平衡和特征重要性识别的挑战。
  2. 本研究提出使用TabPFN、MambaNet和MambaAttention等深度表格模型,结合SMOTEENN重采样解决上述问题。
  3. 实验表明,MambaAttention模型在严重伤害分类中表现优异,验证了深度表格模型在电动汽车碰撞安全领域的潜力。

📝 摘要(中文)

本研究提出了一个深度表格学习框架,用于预测电动汽车碰撞中的碰撞严重程度。该框架使用来自德克萨斯州(2017-2023)的真实世界碰撞数据,在筛选出纯电动汽车后,分析了23301条电动汽车相关的碰撞记录。通过XGBoost和随机森林进行特征重要性分析,确定了交叉路口关系、首次有害事件、人员年龄、碰撞限速和星期几是最重要的预测因子,以及自动紧急制动等先进安全功能。为了解决类别不平衡问题,采用了合成少数类过采样技术和编辑最近邻(SMOTEENN)重采样。对三种最先进的深度表格模型TabPFN、MambaNet和MambaAttention进行了严重程度预测的基准测试。虽然TabPFN表现出强大的泛化能力,但MambaAttention由于其基于注意力的特征重加权,在严重伤害病例的分类中取得了优异的性能。研究结果突出了深度表格架构在改善碰撞严重程度预测和在电动汽车碰撞环境中实现数据驱动的安全干预方面的潜力。

🔬 方法详解

问题定义:该论文旨在解决电动汽车碰撞事故中,如何准确预测碰撞严重程度的问题。现有方法在处理类别不平衡的数据集和捕捉复杂特征关系方面存在不足,难以有效预测事故的严重程度。

核心思路:论文的核心思路是利用深度表格学习模型,特别是TabPFN和Mamba系列模型,结合数据增强技术(SMOTEENN)来提升模型在不平衡数据集上的预测性能。通过特征重要性分析,筛选出关键的影响因素,并利用MambaAttention模型进行特征重加权,从而提高对严重伤害案例的识别能力。

技术框架:整体框架包括数据预处理、特征工程、模型训练和评估四个主要阶段。首先,对原始碰撞数据进行清洗和筛选,提取相关特征。然后,使用XGBoost和随机森林进行特征重要性分析,选择关键特征。接着,使用SMOTEENN进行数据增强,解决类别不平衡问题。最后,训练和评估TabPFN、MambaNet和MambaAttention三种深度表格模型。

关键创新:该研究的关键创新在于将Mamba系列模型应用于电动汽车碰撞严重程度预测,并结合注意力机制进行特征重加权。Mamba系列模型在处理序列数据方面具有优势,能够捕捉碰撞事件中的时间依赖关系。MambaAttention模型通过注意力机制,能够动态地调整不同特征的权重,从而提高模型的预测精度。

关键设计:论文中使用了SMOTEENN进行数据增强,平衡不同严重程度的样本数量。MambaAttention模型采用了注意力机制,允许模型学习不同特征的重要性。模型的训练使用了标准的交叉熵损失函数,并采用Adam优化器进行优化。具体的网络结构和参数设置在论文中可能未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MambaAttention模型在严重伤害分类中表现优于其他模型,证明了其在处理不平衡数据集和捕捉复杂特征关系方面的优势。虽然具体的性能提升幅度未知,但该研究验证了深度表格模型在电动汽车碰撞安全领域的应用潜力。

🎯 应用场景

该研究成果可应用于智能交通系统、车辆安全预警系统和保险行业。通过准确预测碰撞严重程度,可以为驾驶员提供实时安全预警,辅助车辆安全系统进行决策,并为保险公司提供更精确的风险评估,从而降低事故发生率和减少人员伤亡。

📄 摘要(原文)

This study presents a deep tabular learning framework for predicting crash severity in electric vehicle (EV) collisions using real-world crash data from Texas (2017-2023). After filtering for electric-only vehicles, 23,301 EV-involved crash records were analyzed. Feature importance techniques using XGBoost and Random Forest identified intersection relation, first harmful event, person age, crash speed limit, and day of week as the top predictors, along with advanced safety features like automatic emergency braking. To address class imbalance, Synthetic Minority Over-sampling Technique and Edited Nearest Neighbors (SMOTEENN) resampling was applied. Three state-of-the-art deep tabular models, TabPFN, MambaNet, and MambaAttention, were benchmarked for severity prediction. While TabPFN demonstrated strong generalization, MambaAttention achieved superior performance in classifying severe injury cases due to its attention-based feature reweighting. The findings highlight the potential of deep tabular architectures for improving crash severity prediction and enabling data-driven safety interventions in EV crash contexts.