DriveSOTIF: Advancing Perception SOTIF Through Multimodal Large Language Models

📄 arXiv: 2505.07084v3 📥 PDF

作者: Shucheng Huang, Freda Shi, Chen Sun, Jiaming Zhong, Minghao Ning, Yufeng Yang, Yukun Lu, Hong Wang, Amir Khajepour

分类: cs.RO

发布日期: 2025-05-11 (更新: 2025-09-09)

备注: This work has been accepted to IEEE Transactions on Vehicular Technology. Please refer to the copyright notice for additional information

DOI: 10.1109/TVT.2025.3608811


💡 一句话要点

DriveSOTIF:通过多模态大语言模型提升自动驾驶感知SOTIF

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 预期功能安全 多模态大语言模型 风险识别 计算机视觉

📋 核心要点

  1. 自动驾驶车辆在复杂场景下难以有效管理感知相关的SOTIF风险,缺乏人类驾驶员的空间和因果智能。
  2. 通过在定制的SOTIF数据集上微调多模态大语言模型,使模型能够更好地理解和预测驾驶场景中的安全风险。
  3. 实验表明,微调后的模型在VQA任务上显著优于基线模型,并在真实场景中成功识别潜在的安全风险。

📝 摘要(中文)

人类驾驶员具备空间和因果智能,能够感知驾驶场景、预测危险并对动态环境做出反应。相比之下,自动驾驶汽车缺乏这些能力,使得管理与感知相关的预期功能安全(SOTIF)风险变得具有挑战性,尤其是在复杂或不可预测的驾驶条件下。为了解决这一差距,我们提出在专门设计的、用于捕获与感知相关的SOTIF场景的定制数据集上,对多模态大语言模型(MLLM)进行微调。基准测试结果表明,与基线模型相比,微调后的MLLM在封闭式VQA准确率方面提高了11.8%,在开放式VQA得分方面提高了12.0%,同时保持了实时性能,每张图像的平均推理时间为0.59秒。我们通过在加拿大和中国的真实案例研究验证了我们的方法,其中微调后的模型正确识别了即使经验丰富的人类驾驶员也难以发现的安全风险。这项工作代表了领域特定的MLLM微调在自动驾驶SOTIF领域的首次应用。数据集和相关资源可在github.com/s95huang/DriveSOTIF.git上找到。

🔬 方法详解

问题定义:论文旨在解决自动驾驶汽车在复杂和不可预测的驾驶条件下,难以有效管理感知相关的SOTIF风险的问题。现有方法缺乏人类驾驶员的空间和因果智能,无法准确识别和预测潜在的安全风险。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大理解和推理能力,通过在专门构建的、包含丰富SOTIF场景的数据集上进行微调,使模型能够学习并掌握与自动驾驶安全相关的知识,从而提升其感知和风险识别能力。

技术框架:整体框架包括数据收集与标注、MLLM选择与微调、以及模型评估与验证三个主要阶段。首先,构建一个包含各种SOTIF场景的定制数据集,并进行详细标注。然后,选择合适的多模态大语言模型作为基础模型,并在SOTIF数据集上进行微调。最后,通过基准测试和真实场景验证,评估微调后模型的性能。

关键创新:该论文的关键创新在于首次将领域特定的MLLM微调应用于自动驾驶的SOTIF领域。通过定制数据集和微调策略,显著提升了MLLM在自动驾驶安全风险识别方面的能力,使其能够更好地理解和预测复杂驾驶场景中的潜在危险。

关键设计:论文的关键设计包括SOTIF数据集的构建,该数据集包含了各种复杂和具有挑战性的驾驶场景,以及针对MLLM的微调策略,包括选择合适的预训练模型、设计有效的损失函数和优化算法,以及调整超参数以获得最佳性能。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,微调后的MLLM在封闭式VQA准确率方面提高了11.8%,在开放式VQA得分方面提高了12.0%,同时保持了实时性能,每张图像的平均推理时间为0.59秒。在加拿大和中国的真实案例研究中,微调后的模型成功识别了即使经验丰富的人类驾驶员也难以发现的安全风险。

🎯 应用场景

该研究成果可应用于提升自动驾驶系统的安全性,尤其是在复杂和不可预测的驾驶环境中。通过更准确地识别和预测潜在的安全风险,可以减少事故发生的概率,提高自动驾驶汽车的可靠性和安全性。此外,该方法还可以用于自动驾驶系统的测试和验证,以及驾驶员辅助系统的开发。

📄 摘要(原文)

Human drivers possess spatial and causal intelligence, enabling them to perceive driving scenarios, anticipate hazards, and react to dynamic environments. In contrast, autonomous vehicles lack these abilities, making it challenging to manage perception-related Safety of the Intended Functionality (SOTIF) risks, especially under complex or unpredictable driving conditions. To address this gap, we propose fine-tuning multimodal large language models (MLLMs) on a customized dataset specifically designed to capture perception-related SOTIF scenarios. Benchmarking results show that fine-tuned MLLMs achieve an 11.8\% improvement in close-ended VQA accuracy and a 12.0\% increase in open-ended VQA scores compared to baseline models, while maintaining real-time performance with a 0.59-second average inference time per image. We validate our approach through real-world case studies in Canada and China, where fine-tuned models correctly identify safety risks that challenge even experienced human drivers. This work represents the first application of domain-specific MLLM fine-tuning for SOTIF domain in autonomous driving. The dataset and related resources are available at github.com/s95huang/DriveSOTIF.git