NanoVLA: Routing Decoupled Vision-Language Understanding for Nano-sized Generalist Robotic Policies

作者: Jiahong Chen, Jing Wang, Long Chen, Chuwei Cai, Jinghui Lu

分类: cs.RO

发布日期: 2025-10-29

💡 一句话要点

NanoVLA：面向纳米级通用机器人策略的解耦视觉-语言理解

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 边缘计算 模型轻量化 动态路由

📋 核心要点

现有VLA模型计算量大，难以在资源受限的边缘设备上部署，限制了其在实际机器人应用中的潜力。
NanoVLA通过视觉-语言解耦、长短动作分块和动态路由等创新，实现了轻量化和高效的推理。
实验表明，NanoVLA在边缘设备上实现了高达52倍的推理加速，参数减少98%，同时保持或提升了任务精度。

📝 摘要（中文）

视觉-语言-动作(VLA)模型通过将视觉-语言模型(VLM)和动作解码器集成到统一架构中，显著推进了机器人操作。然而，由于高计算需求，它们在资源受限的边缘设备（如移动机器人或嵌入式系统，例如Jetson Orin Nano）上的部署仍然具有挑战性，尤其是在功率、延迟和计算资源至关重要的现实场景中。为了弥合这一差距，我们引入了纳米级视觉-语言动作(NanoVLA)，这是一系列轻量级VLA架构，以最小的资源实现高性能。我们的核心创新包括：(1)视觉-语言解耦，将VLM中传统的早期视觉和语言输入融合移至后期，在实现更好性能的同时，支持缓存并降低推理开销和延迟；(2)长短动作分块，确保平滑、连贯的多步规划，而不牺牲实时响应性；(3)动态路由，根据任务复杂度自适应地分配轻量级或重型骨干网络，进一步优化推理效率。在多个基准测试以及实际部署中的实验结果表明，与之前的最先进的VLA模型相比，NanoVLA在边缘设备上的推理速度提高了高达52倍，参数减少了98%，同时保持或超过了它们的任务准确性和泛化能力。消融研究证实，我们的解耦策略保留了跨任务可迁移性，并且路由模块增强了成本-性能权衡，从而能够在资源受限的硬件上实现实用、高精度的机器人操作。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型计算复杂度高，难以在资源受限的边缘设备上部署，例如移动机器人和嵌入式系统。这限制了它们在实际机器人操作任务中的应用，尤其是在对功耗、延迟和计算资源有严格要求的场景中。现有方法通常采用早期融合的方式，增加了计算负担，并且难以进行有效的资源优化。

核心思路：NanoVLA的核心思路是通过解耦视觉和语言处理，将融合操作移至后期，从而降低计算复杂度并支持缓存。此外，采用长短动作分块策略来平衡规划的连贯性和实时响应性。最后，利用动态路由机制，根据任务复杂度自适应地选择轻量级或重型骨干网络，进一步优化推理效率。

技术框架：NanoVLA的整体架构包含三个主要模块：视觉编码器、语言编码器和动作解码器。视觉编码器和语言编码器分别处理视觉和语言输入，并将特征传递给后续的融合模块。动作解码器接收融合后的特征，并生成机器人的动作序列。动态路由模块根据任务的复杂程度，选择合适的视觉和语言编码器组合。长短动作分块策略用于生成平滑的动作序列。

关键创新：NanoVLA的关键创新在于视觉-语言解耦和动态路由。视觉-语言解耦将视觉和语言信息的融合推迟到网络的后期，降低了计算复杂度，并允许对视觉和语言特征进行独立处理和缓存。动态路由允许模型根据任务的复杂性自适应地选择合适的骨干网络，从而在性能和计算成本之间取得更好的平衡。

关键设计：在视觉-语言解耦方面，论文采用了late fusion策略，将视觉和语言特征在动作解码器之前进行融合。长短动作分块策略通过预测多个时间步的动作，并根据环境反馈进行调整，从而实现平滑的动作序列。动态路由模块使用一个轻量级的分类器来预测任务的复杂性，并根据预测结果选择合适的骨干网络。

🖼️ 关键图片

📊 实验亮点

NanoVLA在边缘设备上实现了显著的性能提升，与之前的最先进的VLA模型相比，推理速度提高了高达52倍，参数减少了98%，同时保持或超过了它们的任务准确性和泛化能力。在实际机器人操作任务中，NanoVLA表现出了良好的性能和鲁棒性。

🎯 应用场景

NanoVLA适用于资源受限的机器人应用场景，例如移动机器人、无人机、以及其他嵌入式系统。它能够实现低功耗、低延迟的视觉-语言理解和动作规划，从而使这些设备能够在复杂的环境中执行各种任务，例如物体识别、导航和操作。

📄 摘要（原文）

Vision-language-action (VLA) models have significantly advanced robotic manipulation by integrating vision-language models (VLMs), and action decoders into a unified architecture. However, their deployment on resource-constrained edge devices, such as mobile robots or embedded systems (e.g., Jetson Orin Nano), remains challenging due to high computational demands, especially in real-world scenarios where power, latency, and computational resources are critical. To close this gap, we introduce Nano-scale Vision-Language Action (NanoVLA), a family of lightweight VLA architectures that achieve high performance with minimal resources. Our core innovations include: (1) vision-language decoupling that moves conventional early vision and language inputs fusion in VLM to late stage, achieving better performance while enabling caching and reduce inference overhead and latency; (2) long-short action chunking to ensure smooth, coherent multi-step planning without sacrificing real-time responsiveness; (3) dynamic routing that adaptively assigns lightweight or heavy backbones based on task complexity, further optimizing inference efficiency. Experimental results on several benchmarks, as well as real-world deployments, demonstrate that NanoVLA achieves up to 52x faster inference on edge devices compared to previous state-of-the-art VLA models, with 98% less parameters while maintaining or surpassing their task accuracy and generalization. Ablation studies confirm that our decoupling strategy preserves cross-task transferability, and the routing module enhances cost-performance trade-offs, enabling practical, high-precision robotic manipulation on resource-constrained hardware.

NanoVLA: Routing Decoupled Vision-Language Understanding for Nano-sized Generalist Robotic Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理