SafeAlign-VLA: A Negative-Enhanced Safe Alignment Framework for Risk-Aware Autonomous Driving
作者: Kefei Tian, Yuansheng Lian, Kai Yang, Xiangdong Chen, Shen Li
分类: cs.RO, cs.CV
发布日期: 2026-05-19
💡 一句话要点
SafeAlign-VLA:面向风险感知的自动驾驶负样本增强安全对齐框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉-语言-动作模型 负样本学习 安全对齐 反事实推理 强化学习 风险预测
📋 核心要点
- 现有VLA自动驾驶方法依赖正样本,忽略负样本,导致对风险行为理解不足,安全边界模糊。
- SafeAlign-VLA框架通过反事实推理生成负样本,并结合监督学习和强化学习进行安全对齐。
- 实验表明,SafeAlign-VLA在NAVSIM和DeepAccident数据集上均取得了显著的安全性和性能提升。
📝 摘要(中文)
端到端自动驾驶系统在常见场景中表现出色,但在安全攸关的长尾案例中表现不佳。视觉-语言-动作(VLA)模型因其强大的推理能力而备受关注。然而,大多数基于VLA的方法依赖于积极的专家演示,很少利用负样本,导致对风险行为和安全边界的理解不足。为了解决这个限制,我们提出了SafeAlign-VLA,一个统一的负样本增强安全对齐框架,将负数据纳入监督学习和强化学习中。首先,我们开发了一种反事实安全配对范式,通过反事实推理从风险场景中生成结构化的安全标签和反事实积极轨迹。然后,采用两阶段训练策略:负样本增强的监督微调用于失败反馈和轨迹校正,然后是基于锚点的群体相对策略优化,该优化使用积极和消极轨迹作为对比锚点,通过群体相对优势来引导采样并惩罚高风险行为。在NAVSIM和DeepAccident上的实验验证了所提出的框架。SafeAlign-VLA在NAVSIM v1测试集上实现了89.1的PDMS,比没有负数据的基线提高了1.3%。在DeepAccident上,它将碰撞率降低到3.36%,同时实现了84.2%的语言准确率和85.8%的风险预测准确率。这些结果证明了所提出的负样本增强安全对齐框架对于安全和鲁棒的自动驾驶的有效性。
🔬 方法详解
问题定义:现有基于视觉-语言-动作(VLA)的自动驾驶系统主要依赖于正样本进行训练,即模仿专家驾驶行为。这种方法忽略了负样本,也就是危险或不安全的驾驶行为,导致模型在面对罕见但关键的安全场景时,缺乏足够的风险意识和应对能力。现有方法难以准确识别和避免潜在的危险情况,导致安全性能不足。
核心思路:SafeAlign-VLA的核心思路是通过引入负样本来增强模型对风险行为的理解和识别能力。具体来说,该方法利用反事实推理生成负样本,并将其与正样本结合,通过对比学习的方式,让模型学习区分安全和不安全的驾驶行为。通过这种方式,模型能够更好地理解安全边界,从而提高自动驾驶系统的安全性。
技术框架:SafeAlign-VLA框架包含两个主要阶段:负样本增强的监督微调和基于锚点的群体相对策略优化。在第一阶段,利用反事实安全配对范式生成结构化的安全标签和反事实积极轨迹。然后,使用这些数据进行监督微调,以提高模型对失败反馈和轨迹校正的能力。在第二阶段,使用正负样本作为对比锚点,通过群体相对优势来引导采样,并惩罚高风险行为。
关键创新:SafeAlign-VLA的关键创新在于引入了负样本增强的安全对齐框架。与传统的只依赖正样本的方法不同,SafeAlign-VLA通过反事实推理生成负样本,并将其纳入训练过程中。这种方法能够更有效地提高模型对风险行为的识别和规避能力,从而提高自动驾驶系统的安全性。
关键设计:反事实安全配对范式是生成负样本的关键。该范式通过对风险场景进行反事实推理,生成与实际轨迹形成对比的反事实轨迹,并赋予其相应的安全标签。在群体相对策略优化中,使用正负样本轨迹作为锚点,计算群体相对优势,从而引导策略学习,并惩罚高风险行为。损失函数的设计也考虑了正负样本的对比,以提高模型的区分能力。
🖼️ 关键图片
📊 实验亮点
SafeAlign-VLA在NAVSIM v1测试集上实现了89.1的PDMS,比没有负数据的基线提高了1.3%。在DeepAccident数据集上,碰撞率降低到3.36%,同时实现了84.2%的语言准确率和85.8%的风险预测准确率。这些结果表明,SafeAlign-VLA能够显著提高自动驾驶系统的安全性和性能。
🎯 应用场景
SafeAlign-VLA框架可应用于各种自动驾驶场景,尤其是在需要高度安全性的场景中,例如城市道路、高速公路等。该研究的实际价值在于提高自动驾驶系统的安全性和鲁棒性,减少交通事故的发生。未来,该框架可以进一步扩展到其他机器人领域,例如无人机、服务机器人等,以提高其安全性和可靠性。
📄 摘要(原文)
End-to-end autonomous driving systems excel in common scenarios but struggle with safety-critical long-tail cases. Vision-Language-Action (VLA) models are promising due to their strong reasoning capabilities. However, most VLA-based approaches rely on positive expert demonstrations, rarely exploiting negative samples, leading to insufficient understanding of risky behaviors and safety boundaries. To address this limitation, we propose SafeAlign-VLA, a unified negative-enhanced safe alignment framework that incorporates negative data into supervised learning and reinforcement learning. First, we develop a counterfactual safety pairing paradigm to generate structured safety labels and counterfactual positive trajectories from risky scenarios via counterfactual reasoning. Then, a two-stage training strategy is adopted: negative-enhanced supervised fine-tuning for failure feedback and trajectory correction, followed by anchor-based group relative policy optimization that uses positive and negative trajectories as contrastive anchors to steer sampling and penalize high-risk behaviors via group-relative advantages. Experiments on NAVSIM and DeepAccident validate the proposed framework. SafeAlign-VLA achieves 89.1 PDMS on the NAVSIM v1 testset, improving over the baseline without negative data by 1.3%. On DeepAccident, it reduces the collision rate to 3.36%, while achieving 84.2% language accuracy and 85.8% risk prediction accuracy. These results demonstrate the effectiveness of the proposed negative-enhanced safe alignment framework for safe and robust autonomous driving.