NanoVLA: Routing Decoupled Vision-Language Understanding for Nano-sized Generalist Robotic Policies
作者: Jiahong Chen, Jing Wang, Long Chen, Chuwei Cai, Jinghui Lu
分类: cs.RO
发布日期: 2025-10-29
💡 一句话要点
NanoVLA:面向纳米级通用机器人策略的解耦视觉-语言理解
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人操作 边缘计算 模型轻量化 动态路由
📋 核心要点
- 现有VLA模型计算量大,难以在资源受限的边缘设备上部署,限制了其在实际机器人应用中的潜力。
- NanoVLA通过视觉-语言解耦、长短动作分块和动态路由等创新,实现了轻量化和高效的推理。
- 实验表明,NanoVLA在边缘设备上实现了高达52倍的推理加速,参数减少98%,同时保持或提升了任务精度。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通过将视觉-语言模型(VLM)和动作解码器集成到统一架构中,显著推进了机器人操作。然而,由于高计算需求,它们在资源受限的边缘设备(如移动机器人或嵌入式系统,例如Jetson Orin Nano)上的部署仍然具有挑战性,尤其是在功率、延迟和计算资源至关重要的现实场景中。为了弥合这一差距,我们引入了纳米级视觉-语言动作(NanoVLA),这是一系列轻量级VLA架构,以最小的资源实现高性能。我们的核心创新包括:(1)视觉-语言解耦,将VLM中传统的早期视觉和语言输入融合移至后期,在实现更好性能的同时,支持缓存并降低推理开销和延迟;(2)长短动作分块,确保平滑、连贯的多步规划,而不牺牲实时响应性;(3)动态路由,根据任务复杂度自适应地分配轻量级或重型骨干网络,进一步优化推理效率。在多个基准测试以及实际部署中的实验结果表明,与之前的最先进的VLA模型相比,NanoVLA在边缘设备上的推理速度提高了高达52倍,参数减少了98%,同时保持或超过了它们的任务准确性和泛化能力。消融研究证实,我们的解耦策略保留了跨任务可迁移性,并且路由模块增强了成本-性能权衡,从而能够在资源受限的硬件上实现实用、高精度的机器人操作。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型计算复杂度高,难以在资源受限的边缘设备上部署,例如移动机器人和嵌入式系统。这限制了它们在实际机器人操作任务中的应用,尤其是在对功耗、延迟和计算资源有严格要求的场景中。现有方法通常采用早期融合的方式,增加了计算负担,并且难以进行有效的资源优化。
核心思路:NanoVLA的核心思路是通过解耦视觉和语言处理,将融合操作移至后期,从而降低计算复杂度并支持缓存。此外,采用长短动作分块策略来平衡规划的连贯性和实时响应性。最后,利用动态路由机制,根据任务复杂度自适应地选择轻量级或重型骨干网络,进一步优化推理效率。
技术框架:NanoVLA的整体架构包含三个主要模块:视觉编码器、语言编码器和动作解码器。视觉编码器和语言编码器分别处理视觉和语言输入,并将特征传递给后续的融合模块。动作解码器接收融合后的特征,并生成机器人的动作序列。动态路由模块根据任务的复杂程度,选择合适的视觉和语言编码器组合。长短动作分块策略用于生成平滑的动作序列。
关键创新:NanoVLA的关键创新在于视觉-语言解耦和动态路由。视觉-语言解耦将视觉和语言信息的融合推迟到网络的后期,降低了计算复杂度,并允许对视觉和语言特征进行独立处理和缓存。动态路由允许模型根据任务的复杂性自适应地选择合适的骨干网络,从而在性能和计算成本之间取得更好的平衡。
关键设计:在视觉-语言解耦方面,论文采用了late fusion策略,将视觉和语言特征在动作解码器之前进行融合。长短动作分块策略通过预测多个时间步的动作,并根据环境反馈进行调整,从而实现平滑的动作序列。动态路由模块使用一个轻量级的分类器来预测任务的复杂性,并根据预测结果选择合适的骨干网络。
🖼️ 关键图片
📊 实验亮点
NanoVLA在边缘设备上实现了显著的性能提升,与之前的最先进的VLA模型相比,推理速度提高了高达52倍,参数减少了98%,同时保持或超过了它们的任务准确性和泛化能力。在实际机器人操作任务中,NanoVLA表现出了良好的性能和鲁棒性。
🎯 应用场景
NanoVLA适用于资源受限的机器人应用场景,例如移动机器人、无人机、以及其他嵌入式系统。它能够实现低功耗、低延迟的视觉-语言理解和动作规划,从而使这些设备能够在复杂的环境中执行各种任务,例如物体识别、导航和操作。
📄 摘要(原文)
Vision-language-action (VLA) models have significantly advanced robotic manipulation by integrating vision-language models (VLMs), and action decoders into a unified architecture. However, their deployment on resource-constrained edge devices, such as mobile robots or embedded systems (e.g., Jetson Orin Nano), remains challenging due to high computational demands, especially in real-world scenarios where power, latency, and computational resources are critical. To close this gap, we introduce Nano-scale Vision-Language Action (NanoVLA), a family of lightweight VLA architectures that achieve high performance with minimal resources. Our core innovations include: (1) vision-language decoupling that moves conventional early vision and language inputs fusion in VLM to late stage, achieving better performance while enabling caching and reduce inference overhead and latency; (2) long-short action chunking to ensure smooth, coherent multi-step planning without sacrificing real-time responsiveness; (3) dynamic routing that adaptively assigns lightweight or heavy backbones based on task complexity, further optimizing inference efficiency. Experimental results on several benchmarks, as well as real-world deployments, demonstrate that NanoVLA achieves up to 52x faster inference on edge devices compared to previous state-of-the-art VLA models, with 98% less parameters while maintaining or surpassing their task accuracy and generalization. Ablation studies confirm that our decoupling strategy preserves cross-task transferability, and the routing module enhances cost-performance trade-offs, enabling practical, high-precision robotic manipulation on resource-constrained hardware.