NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

作者: Ishaan Rawal, Shubh Gupta, Yihan Hu, Wei Zhan

分类: cs.AI, cs.CV

发布日期: 2026-02-24

备注: Accepted to CVPR 2026

💡 一句话要点

提出NoRD以解决数据收集与推理标注成本高的问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 自动驾驶 数据效率 无推理 策略优化 深度学习

📋 核心要点

现有视觉-语言-动作模型需要大量数据和推理标注，导致训练成本高昂。
提出NoRD模型，利用Dr. GRPO算法解决难度偏差问题，实现高效的训练与推理。
NoRD在Waymo和NAVSIM数据集上表现出色，使用的数据量减少至60%以下，且无推理开销。

📝 摘要（中文）

视觉-语言-动作（VLA）模型通过统一的端到端架构推动了自动驾驶的发展。然而，现有VLA面临两个昂贵的要求：大量数据集的收集和密集的推理标注。本文提出了NoRD（无推理的驾驶），在不到60%的数据和无推理标注的情况下，仍能实现与现有VLA竞争的性能，减少了3倍的token数量。我们发现标准的群体相对策略优化（GRPO）在小型无推理数据集上未能显著提升性能，主要是由于难度偏差的影响。NoRD通过引入Dr. GRPO算法来克服这一问题，从而在Waymo和NAVSIM上实现了竞争性的性能，显著提高了自动驾驶系统的效率。

🔬 方法详解

问题定义：本文旨在解决现有视觉-语言-动作模型在自动驾驶中对大量数据和推理标注的依赖，导致训练成本高和效率低的问题。

核心思路：提出NoRD模型，通过减少数据需求和推理标注，结合Dr. GRPO算法，克服难度偏差，从而提高训练效率和模型性能。

技术框架：NoRD模型采用端到端的架构，主要包括数据预处理模块、无推理训练模块和基于Dr. GRPO的策略优化模块，确保模型在小数据集上仍能有效学习。

关键创新：NoRD的核心创新在于引入Dr. GRPO算法，专门设计用于缓解难度偏差，这一设计使得模型在小型数据集上能够获得更稳定的奖励信号，显著提升了训练效果。

关键设计：在模型设计中，采用了较少的token数量（减少至3倍），并优化了损失函数以适应无推理的训练需求，确保模型在数据稀缺的情况下仍能保持竞争力。

🖼️ 关键图片

📊 实验亮点

在Waymo和NAVSIM数据集上的实验结果显示，NoRD模型在使用不到60%的数据和无推理标注的情况下，仍能实现与现有模型相当的性能，且训练效率提升了3倍，展示了其在数据效率上的显著优势。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、智能交通系统和机器人导航等。通过降低对大规模数据集和推理标注的依赖，NoRD能够加速自动驾驶技术的普及与应用，提升系统的整体效率与可靠性。

📄 摘要（原文）

Vision-Language-Action (VLA) models are advancing autonomous driving by replacing modular pipelines with unified end-to-end architectures. However, current VLAs face two expensive requirements: (1) massive dataset collection, and (2) dense reasoning annotations. In this work, we address both challenges with \modelname (\textbf{No} \textbf{R}easoning for \textbf{D}riving). Compared to existing VLAs, \modelname achieves competitive performance while being fine-tuned on $<$60\% of the data and no reasoning annotations, resulting in 3$\times$ fewer tokens. We identify that standard Group Relative Policy Optimization (GRPO) fails to yield significant improvements when applied to policies trained on such small, reasoning-free datasets. We show that this limitation stems from difficulty bias, which disproportionately penalizes reward signals from scenarios that produce high-variance rollouts within GRPO. \modelname overcomes this by incorporating Dr.~GRPO, a recent algorithm designed to mitigate difficulty bias in LLMs. As a result, \modelname achieves competitive performance on Waymo and NAVSIM with a fraction of the training data and no reasoning overhead, enabling more efficient autonomous systems.

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理