Learning from Mistakes: Post-Training for Driving VLA with Takeover Data

作者: Yinfeng Gao, Deqing Liu, Qichao Zhang, Yupeng Zheng, Haochen Tian, Guang Li, Hangjun Ye, Long Chen, Da-Wei Ding, Dongbin Zhao

分类: cs.RO

发布日期: 2026-03-16

💡 一句话要点

TakeVLA：通过接管数据后训练，提升端到端自动驾驶VLA模型的安全性和性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作 后训练 接管数据 强化学习 安全驾驶 情景梦境

📋 核心要点

现有VLA自动驾驶模型依赖离线数据，泛化性差，且后训练方法仅关注接管后的监督，安全裕度不足。
TakeVLA通过引入接管前语言监督，使模型主动学习错误场景，并采用情景梦境进行强化微调，鼓励主动探索。
实验表明，TakeVLA在驾驶评分和安全指标上均超越现有方法，显著提升了自动驾驶VLA模型的性能和安全性。

📝 摘要（中文）

现有的端到端自动驾驶视觉-语言-动作（VLA）模型依赖于静态数据集的离线训练，容易受到分布偏移的影响。最近的后训练方法利用接管数据，通过高质量的专家接管样本来缓解这个问题，但存在两个主要限制：一是仅对接管后时期的监督导致策略的安全裕度有限；二是被动的偏好优化缺乏对最优性能的主动探索。本文提出了TakeVLA，一种新颖的VLA后训练框架，通过两个互补的创新克服了这些缺点。首先，引入接管前语言监督，使VLA能够主动从错误中学习。通过显式地教导模型在容易出错的情况下该怎么做，培养了一种预防性思维，能够及早预测危险并大幅扩大安全裕度。其次，提出了情景梦境（Scenario Dreaming），一种在重建的接管情景中运行的强化微调范式，鼓励超越单纯偏好拟合的主动探索。在Bench2Drive基准上的实验表明，TakeVLA实现了最先进的闭环性能，在驾驶评分方面超过了强大的VLA基线SimLingo 4.93，并通过平均TTC提高11.76%证明了其增强的安全裕度。

🔬 方法详解

问题定义：现有端到端自动驾驶VLA模型主要依赖离线静态数据集训练，难以适应真实世界中复杂多变的驾驶环境，导致模型泛化能力不足。同时，利用接管数据进行后训练的方法，通常只关注接管发生后的监督信号，忽略了接管前潜在危险场景的学习，使得模型在危险发生前的反应不够及时，安全裕度有限。此外，被动的偏好优化方法缺乏主动探索，难以达到最优性能。

核心思路：TakeVLA的核心思路是通过引入接管前语言监督，让模型能够主动学习错误场景，从而提升模型的安全意识和预防能力。同时，采用情景梦境（Scenario Dreaming）的强化微调范式，鼓励模型在重建的接管场景中进行主动探索，从而超越单纯的偏好拟合，达到更好的性能。

技术框架：TakeVLA框架主要包含两个关键模块：一是接管前语言监督模块，该模块利用接管事件发生前的驾驶数据，通过语言描述来引导模型学习潜在的危险场景和应对策略。二是情景梦境模块，该模块基于接管数据重建驾驶场景，并利用强化学习算法对模型进行微调，鼓励模型在模拟环境中进行主动探索和学习。整体流程为：首先利用离线数据集进行预训练，然后利用接管数据进行后训练，包括接管前语言监督和情景梦境强化微调。

关键创新：TakeVLA最重要的技术创新点在于引入了接管前语言监督和情景梦境强化微调。接管前语言监督使得模型能够主动学习错误场景，提升安全意识；情景梦境强化微调则鼓励模型进行主动探索，超越单纯的偏好拟合。与现有方法相比，TakeVLA不仅关注接管后的行为，更关注接管前的潜在危险场景，从而提升了模型的安全性和性能。

关键设计：在接管前语言监督模块中，关键在于如何设计有效的语言描述，以引导模型学习潜在的危险场景。一种可能的设计是利用自然语言处理技术，自动生成描述驾驶场景的语言文本，例如“前方有行人横穿马路”、“车辆正在靠近障碍物”等。在情景梦境模块中，关键在于如何设计奖励函数，以鼓励模型进行安全和高效的驾驶行为。一种可能的设计是结合驾驶评分和安全指标，例如TTC（Time-To-Collision），来设计奖励函数。

🖼️ 关键图片

📊 实验亮点

TakeVLA在Bench2Drive基准测试中取得了显著的成果，驾驶评分超越了强大的VLA基线SimLingo 4.93分，同时平均TTC提升了11.76%，表明TakeVLA在提升驾驶性能的同时，显著增强了自动驾驶系统的安全性。这些结果验证了TakeVLA框架的有效性，并展示了其在实际应用中的潜力。

🎯 应用场景

TakeVLA具有广泛的应用前景，可应用于各种自动驾驶系统，提升其安全性和可靠性。该方法尤其适用于处理复杂和不确定的驾驶环境，例如城市道路和高速公路。此外，TakeVLA的后训练框架也可以推广到其他机器人领域，例如无人机和机器人导航，以提升其在复杂环境中的适应能力。

📄 摘要（原文）

Current Vision-Language-Action (VLA) paradigms in end-to-end autonomous driving rely on offline training from static datasets, leaving them vulnerable to distribution shift. Recent post-training methods use takeover data to mitigate this by augmenting the dataset with high-quality expert takeover samples, yet they suffer from two key limitations: supervision restricted to the period after the takeover moments leads to policies with limited safety margins, and passive preference optimization lacks active exploration for optimal performance. In this paper, we propose TakeVLA, a novel VLA post-training framework that overcomes these shortcomings through two complementary innovations. First, we introduce pre-takeover language supervision, which allows the VLA to learn from mistakes proactively. By explicitly teaching the model about what to do in error-prone situations, we cultivate a precautionary mindset that anticipates hazards early and substantially enlarges safety margins. Second, we propose Scenario Dreaming, a reinforcement fine-tuning paradigm that operates in reconstruceted takeover scenarios, encouraging active exploration beyond mere preference fitting. Experiments on the Bench2Drive benchmark demonstrate that TakeVLA achieves state-of-the-art closed-loop performance, surpassing the strong VLA baseline SimLingo by 4.93 in driving score, with an enhanced safety margin as evidenced by an 11.76% increase in average TTC.

Learning from Mistakes: Post-Training for Driving VLA with Takeover Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理