EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

作者: Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang

分类: cs.CV, cs.AI

发布日期: 2026-03-10

备注: 16 pages, 5 figures

🔗 代码/项目: GITHUB

💡 一句话要点

EvoDriveVLA：通过协同感知-规划蒸馏演进自动驾驶视觉-语言-动作模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作模型 蒸馏学习 协同感知 轨迹规划 深度学习 强化学习

📋 核心要点

现有视觉-语言-动作模型在自动驾驶中存在视觉编码器解冻后感知能力下降以及长期规划不稳定的问题。
EvoDriveVLA提出了一种协同感知-规划蒸馏框架，通过自锚定视觉蒸馏和专家引导轨迹优化来解决上述问题。
EvoDriveVLA在开放循环和闭环评估中均取得了显著的性能提升，达到了SOTA水平。

📝 摘要（中文）

视觉-语言-动作模型在自动驾驶领域展现出巨大潜力，但解冻视觉编码器后感知能力会下降，且长期规划中存在累积不稳定性。为解决这些挑战，我们提出了EvoDriveVLA，一种新颖的协同感知-规划蒸馏框架，集成了自锚定感知约束和专家引导的轨迹优化。具体而言，自锚定视觉蒸馏利用自锚定教师网络传递视觉锚定约束，通过轨迹引导的关键区域感知来规范学生网络的表征。同时，专家引导的轨迹蒸馏采用具有粗到精轨迹细化和蒙特卡洛dropout采样的未来感知专家教师网络，生成高质量的轨迹候选，从而选择最优轨迹来指导学生网络的预测。EvoDriveVLA在开放循环评估中实现了SOTA性能，并在闭环评估中显著提高了性能。代码已开源。

🔬 方法详解

问题定义：论文旨在解决自动驾驶中视觉-语言-动作模型在解冻视觉编码器后感知能力下降，以及长期规划中累积不稳定的问题。现有方法在视觉表征学习和轨迹规划方面存在不足，导致模型在复杂场景下的决策能力受限。

核心思路：论文的核心思路是通过协同感知-规划蒸馏，利用教师网络指导学生网络学习更好的视觉表征和轨迹规划策略。具体而言，通过自锚定视觉蒸馏来增强学生网络的感知能力，并通过专家引导的轨迹蒸馏来提升学生网络的规划能力。

技术框架：EvoDriveVLA框架包含两个主要模块：自锚定视觉蒸馏和专家引导轨迹蒸馏。自锚定视觉蒸馏模块利用自锚定教师网络提供视觉锚定约束，通过轨迹引导的关键区域感知来规范学生网络的视觉表征。专家引导轨迹蒸馏模块利用未来感知的专家教师网络，通过粗到精的轨迹细化和蒙特卡洛dropout采样生成高质量的轨迹候选，并选择最优轨迹来指导学生网络的预测。

关键创新：论文的关键创新在于提出了协同感知-规划蒸馏框架，将感知和规划两个模块进行协同优化。自锚定视觉蒸馏通过引入自锚定教师网络，能够更好地传递视觉信息，提升学生网络的感知能力。专家引导轨迹蒸馏通过引入未来感知的专家教师网络，能够生成更准确的轨迹候选，提升学生网络的规划能力。

关键设计：在自锚定视觉蒸馏中，使用了轨迹引导的关键区域感知来选择重要的视觉特征，并利用自锚定教师网络提供的视觉锚定约束来规范学生网络的表征。在专家引导轨迹蒸馏中，使用了粗到精的轨迹细化和蒙特卡洛dropout采样来生成高质量的轨迹候选，并使用损失函数来衡量学生网络预测轨迹与专家轨迹之间的差异。

🖼️ 关键图片

📊 实验亮点

EvoDriveVLA在开放循环评估中取得了SOTA性能，表明其感知和规划能力得到了显著提升。在闭环评估中，EvoDriveVLA也表现出优异的性能，验证了其在实际自动驾驶场景中的有效性。具体性能数据和对比基线信息未知，请参考论文原文。

🎯 应用场景

EvoDriveVLA的研究成果可应用于各种自动驾驶场景，例如城市道路、高速公路和越野环境。该方法能够提升自动驾驶系统的感知和规划能力，从而提高驾驶安全性、舒适性和效率。此外，该研究还可以为其他机器人应用提供借鉴，例如无人机、服务机器人等。

📄 摘要（原文）

Vision-Language-Action models have shown great promise for autonomous driving, yet they suffer from degraded perception after unfreezing the visual encoder and struggle with accumulated instability in long-term planning. To address these challenges, we propose EvoDriveVLA-a novel collaborative perception-planning distillation framework that integrates self-anchored perceptual constraints and oracle-guided trajectory optimization. Specifically, self-anchored visual distillation leverages self-anchor teacher to deliver visual anchoring constraints, regularizing student representations via trajectory-guided key-region awareness. In parallel, oracle-guided trajectory distillation employs a future-aware oracle teacher with coarse-to-fine trajectory refinement and Monte Carlo dropout sampling to produce high-quality trajectory candidates, thereby selecting the optimal trajectory to guide the student's prediction. EvoDriveVLA achieves SOTA performance in open-loop evaluation and significantly enhances performance in closed-loop evaluation. Our code is available at: https://github.com/hey-cjj/EvoDriveVLA.

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理