Orion-Lite: Distilling LLM Reasoning into Efficient Vision-Only Driving Models

📄 arXiv: 2604.08266v1 📥 PDF

作者: Jing Gu, Niccolò Cavagnero, Gijs Dubbelman

分类: cs.CV

发布日期: 2026-04-09


💡 一句话要点

Orion-Lite:通过知识蒸馏将LLM推理能力赋予高效的纯视觉自动驾驶模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 知识蒸馏 纯视觉模型 大型语言模型 闭环评估

📋 核心要点

  1. 现有VLA模型参数量巨大,难以在延迟敏感的自动驾驶场景中高效部署。
  2. 通过潜在特征蒸馏和轨迹监督,将LLM的知识迁移到纯视觉模型Orion-Lite。
  3. Orion-Lite在Bench2Drive基准测试中超越了VLA教师模型ORION,达到新的SOTA。

📝 摘要(中文)

利用大型语言模型(LLM)的通用世界知识,对于提升自动驾驶系统处理罕见和复杂场景的能力具有重要意义。虽然将LLM集成到视觉-语言-动作(VLA)模型中已取得最先进的性能,但其庞大的参数量对延迟敏感和节能部署提出了严峻挑战。将LLM知识提炼成紧凑的驾驶模型,提供了一种有吸引力的解决方案,可以在保持可控的计算量的同时保留这些推理能力。尽管之前的工作已经证明了知识蒸馏的有效性,但这些努力主要集中在相对简单的场景和开环评估中。因此,在这项工作中,我们研究了在闭环评估下,LLM蒸馏在更复杂的交互场景中的应用。我们证明,通过潜在特征蒸馏和真实轨迹监督的结合,一个高效的纯视觉学生模型 extbf{Orion-Lite}甚至可以超越其大型VLA教师模型ORION的性能。在严格的Bench2Drive基准测试中,Orion-Lite取得了80.6的驾驶分数,创造了新的最先进水平。最终,这表明纯视觉架构仍然具有高性能反应式规划的巨大潜力。

🔬 方法详解

问题定义:现有基于视觉-语言-动作(VLA)的自动驾驶模型,虽然利用了大型语言模型(LLM)的知识,在复杂场景下表现出色,但其庞大的参数量导致计算成本高昂,难以满足自动驾驶系统对实时性和能效的要求。因此,需要一种方法将LLM的推理能力迁移到更轻量级的模型中,同时保持其在复杂场景下的性能。

核心思路:论文的核心思路是通过知识蒸馏,将VLA教师模型(ORION)的知识迁移到一个纯视觉学生模型(Orion-Lite)中。具体来说,通过潜在特征蒸馏,让学生模型学习教师模型在隐空间中的表示,从而获得教师模型的推理能力。同时,利用真实轨迹监督,进一步提升学生模型的驾驶性能。这样,学生模型可以在不依赖语言信息的情况下,仅通过视觉输入就能实现高性能的自动驾驶。

技术框架:Orion-Lite的整体框架包括一个纯视觉编码器和一个运动预测模块。视觉编码器负责从图像中提取特征,运动预测模块则根据提取的特征预测车辆的未来轨迹。知识蒸馏过程包括两个关键部分:一是潜在特征蒸馏,通过最小化学生模型和教师模型在隐空间中的特征差异,让学生模型学习教师模型的表示;二是轨迹监督,通过最小化学生模型预测的轨迹与真实轨迹之间的差异,提升学生模型的驾驶性能。

关键创新:该论文的关键创新在于成功地将LLM的推理能力蒸馏到一个纯视觉模型中,并且在闭环评估下取得了超越教师模型的性能。这表明,即使没有语言信息,纯视觉模型仍然可以通过学习LLM的知识,实现高性能的自动驾驶。此外,论文还探索了潜在特征蒸馏和轨迹监督的有效结合,为知识蒸馏在自动驾驶领域的应用提供了新的思路。

关键设计:在潜在特征蒸馏中,使用了均方误差(MSE)损失函数来衡量学生模型和教师模型在隐空间中的特征差异。在轨迹监督中,使用了L1损失函数来衡量学生模型预测的轨迹与真实轨迹之间的差异。此外,论文还对学生模型的网络结构进行了优化,使其更适合纯视觉输入。具体来说,使用了ResNet-50作为视觉编码器,并采用Transformer结构进行运动预测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Orion-Lite在Bench2Drive基准测试中取得了80.6的驾驶分数,创造了新的SOTA,超越了其VLA教师模型ORION的性能。这表明,通过知识蒸馏,纯视觉模型可以获得与VLA模型相当甚至更高的性能。此外,实验结果还表明,潜在特征蒸馏和轨迹监督的结合可以有效地提升学生模型的驾驶性能。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在计算资源受限的边缘设备上。通过将LLM的知识蒸馏到轻量级模型中,可以降低自动驾驶系统的部署成本,并提高其在实际应用中的可行性。此外,该方法还可以推广到其他机器人领域,例如无人机、服务机器人等,提升这些机器人在复杂环境中的感知和决策能力。

📄 摘要(原文)

Leveraging the general world knowledge of Large Language Models (LLMs) holds significant promise for improving the ability of autonomous driving systems to handle rare and complex scenarios. While integrating LLMs into Vision-Language-Action (VLA) models has yielded state-of-the-art performance, their massive parameter counts pose severe challenges for latency-sensitive and energy-efficient deployment. Distilling LLM knowledge into a compact driving model offers a compelling solution to retain these reasoning capabilities while maintaining a manageable computational footprint. Although previous works have demonstrated the efficacy of distillation, these efforts have primarily focused on relatively simple scenarios and open-loop evaluations. Therefore, in this work, we investigate LLM distillation in more complex, interactive scenarios under closed-loop evaluation. We demonstrate that through a combination of latent feature distillation and ground-truth trajectory supervision, an efficient vision-only student model \textbf{Orion-Lite} can even surpass the performance of its massive VLA teacher, ORION. Setting a new state-of-the-art on the rigorous Bench2Drive benchmark, with a Driving Score of 80.6. Ultimately, this reveals that vision-only architectures still possess significant, untapped potential for high-performance reactive planning.