Bridging Human Oversight and Black-box Driver Assistance: Vision-Language Models for Predictive Alerting in Lane Keeping Assist Systems

作者: Yuhang Wang, Hao Zhou

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-05-14

💡 一句话要点

LKAlert：利用视觉-语言模型实现车道保持辅助系统中的预测性预警

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 车道保持辅助系统 视觉-语言模型 预测性预警 可解释性 黑盒模型 驾驶员辅助 多模态融合

📋 核心要点

现有的车道保持辅助系统（LKA）由于其黑盒特性，导致故障难以预测，降低了驾驶员的信任度。
LKAlert利用视觉-语言模型，结合行车记录仪视频和CAN数据，预测LKA系统潜在的风险，并提供自然语言解释。
实验表明，LKAlert能够以较高的准确率预测LKA故障，并生成高质量的文本解释，适用于实时车载环境。

📝 摘要（中文）

车道保持辅助系统(LKA)日益普及，但由于其不透明的黑盒特性，常常在实际应用中出现难以预测的故障，限制了驾驶员的预判和信任。为了弥合自动辅助驾驶和有效人工监督之间的差距，我们提出了LKAlert，一种新型的监督预警系统，利用视觉-语言模型(VLM)提前1-3秒预测潜在的LKA风险。LKAlert处理行车记录仪视频和CAN数据，并整合来自并行可解释模型的代理车道分割特征作为自动引导注意力。与传统的二元分类器不同，LKAlert发出预测性警报和简洁的自然语言解释，从而增强驾驶员的情境感知和信任。为了支持此类系统的开发和评估，我们推出了OpenLKA-Alert，这是第一个专为预测性和可解释的LKA故障警告设计的基准数据集。它包含跨带注释的时间窗口同步的多模态输入和人工编写的理由。我们进一步贡献了一个基于VLM的黑盒行为预测的通用方法框架，将代理特征引导与LoRA相结合。该框架使VLM能够在结构化的视觉上下文中进行推理，而无需改变其视觉骨干网络，使其广泛适用于其他需要可解释监督的复杂、不透明系统。实验结果表明，该系统能够以69.8%的准确率和58.6%的F1分数正确预测即将发生的LKA故障。该系统还为驾驶员生成高质量的文本解释（71.7 ROUGE-L），并以大约2 Hz的效率运行，证实了其适用于实时车载使用。我们的研究结果表明，LKAlert是增强当前ADAS安全性和可用性的实用解决方案，并为将VLM应用于以人为中心的黑盒自动化监督提供了一个可扩展的范例。

🔬 方法详解

问题定义：现有车道保持辅助系统（LKA）通常是黑盒模型，驾驶员难以理解其决策过程，也无法预测潜在的故障。这导致驾驶员对LKA系统的信任度较低，并且在系统出现问题时难以有效干预。因此，需要一种能够预测LKA系统故障并提供可解释性信息的预警系统。

核心思路：LKAlert的核心思路是利用视觉-语言模型（VLM）来预测LKA系统的行为，并生成自然语言解释。VLM能够同时处理视觉信息（行车记录仪视频）和结构化数据（CAN数据），并学习它们之间的关联。通过预测LKA系统在未来几秒内的行为，并提供相应的解释，LKAlert能够帮助驾驶员更好地理解LKA系统的工作状态，并及时采取措施。

技术框架：LKAlert的整体框架包括以下几个主要模块：1) 数据输入模块：接收行车记录仪视频和CAN数据；2) 特征提取模块：从视频中提取视觉特征，从CAN数据中提取车辆状态特征；3) 代理模型：使用一个可解释的模型（如车道分割模型）提取车道信息，作为VLM的引导注意力；4) VLM预测模块：利用VLM预测LKA系统在未来几秒内的行为，并生成自然语言解释；5) 预警模块：根据VLM的预测结果，向驾驶员发出预警。

关键创新：LKAlert的关键创新在于：1) 提出了一个基于VLM的黑盒行为预测框架，能够同时处理视觉信息和结构化数据；2) 利用代理模型提取的特征作为VLM的引导注意力，提高了预测的准确性和可解释性；3) 生成自然语言解释，帮助驾驶员更好地理解LKA系统的工作状态。

关键设计：LKAlert的关键设计包括：1) 使用LoRA（Low-Rank Adaptation）来微调VLM，使其适应LKA系统的预测任务，同时保持VLM的通用性；2) 设计了一个损失函数，同时考虑了预测的准确性和解释的质量；3) 优化了VLM的推理速度，使其能够在实时车载环境中运行。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LKAlert能够以69.8%的准确率和58.6%的F1分数正确预测即将发生的LKA故障。同时，该系统能够生成高质量的文本解释（71.7 ROUGE-L），并以大约2 Hz的效率运行，证实了其适用于实时车载使用。这些结果表明，LKAlert是一种有效的LKA故障预测和解释系统。

🎯 应用场景

该研究成果可应用于提升现有高级驾驶辅助系统（ADAS）的安全性和可用性。通过预测LKA系统的潜在故障并提供可解释的预警信息，LKAlert能够增强驾驶员的信任感，并帮助驾驶员在必要时及时干预。此外，该研究提出的基于VLM的黑盒行为预测框架，可以推广到其他需要可解释监督的复杂自动化系统，例如机器人、工业控制等领域。

📄 摘要（原文）

Lane Keeping Assist systems, while increasingly prevalent, often suffer from unpredictable real-world failures, largely due to their opaque, black-box nature, which limits driver anticipation and trust. To bridge the gap between automated assistance and effective human oversight, we present LKAlert, a novel supervisory alert system that leverages VLM to forecast potential LKA risk 1-3 seconds in advance. LKAlert processes dash-cam video and CAN data, integrating surrogate lane segmentation features from a parallel interpretable model as automated guiding attention. Unlike traditional binary classifiers, LKAlert issues both predictive alert and concise natural language explanation, enhancing driver situational awareness and trust. To support the development and evaluation of such systems, we introduce OpenLKA-Alert, the first benchmark dataset designed for predictive and explainable LKA failure warnings. It contains synchronized multimodal inputs and human-authored justifications across annotated temporal windows. We further contribute a generalizable methodological framework for VLM-based black-box behavior prediction, combining surrogate feature guidance with LoRA. This framework enables VLM to reason over structured visual context without altering its vision backbone, making it broadly applicable to other complex, opaque systems requiring interpretable oversight. Empirical results correctly predicts upcoming LKA failures with 69.8% accuracy and a 58.6\% F1-score. The system also generates high-quality textual explanations for drivers (71.7 ROUGE-L) and operates efficiently at approximately 2 Hz, confirming its suitability for real-time, in-vehicle use. Our findings establish LKAlert as a practical solution for enhancing the safety and usability of current ADAS and offer a scalable paradigm for applying VLMs to human-centered supervision of black-box automation.

Bridging Human Oversight and Black-box Driver Assistance: Vision-Language Models for Predictive Alerting in Lane Keeping Assist Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理