RhinoVLA Technical Report
作者: Huixi Intelligence, :, Chen Zhang, Chenyang Zhou, Guanglei Ding, Guanghui He, Haibin Gao, Jiajia Chen, Jianyong Zhang, Lianyi Yu, Ningyi Xu, Ping Xu, Qingchen Li, Yingjun Hu, Yijia Zhang, Yuxi Liu
分类: cs.RO, cs.LG
发布日期: 2026-06-05
🔗 代码/项目: GITHUB
💡 一句话要点
提出RhinoVLA以解决边缘硬件实时部署挑战
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作 边缘计算 机器人操作 多模态学习 实时控制
📋 核心要点
- 现有VLA模型在边缘硬件上的实时部署存在显著延迟,主要源于视觉和上下文令牌的计算负担。
- RhinoVLA通过引入高效的Qwen3-VL骨干网络和连续动作专家,优化了令牌和计算,提升了模型的部署效率。
- 实验结果显示,RhinoVLA在参数规模相似的情况下,达到了与π0.5相当的下游性能,并实现了11.69 Hz的实时推理速度。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在机器人操作中展现出强大的潜力,但在边缘硬件上的实时部署仍然面临挑战。本文识别出视觉和上下文令牌是导致部署延迟的主要原因。为此,提出了RhinoVLA,一个与Huixi R1边缘SoC共同设计的VLA模型,采用高效的Qwen3-VL骨干网络和连续的动作专家,减少了VLM侧的令牌和计算负担,同时保留了预训练的多模态能力。此外,RhinoVLA引入了统一接口,支持跨机器人学习。实验表明,RhinoVLA在Huixi R1上实现了11.69 Hz的端到端推理,满足10 Hz的实时闭环控制目标。
🔬 方法详解
问题定义:本文旨在解决视觉-语言-动作(VLA)模型在边缘硬件上实时部署的延迟问题。现有方法在处理视觉和上下文令牌时,计算量随着输入令牌数量的增加而线性增长,导致部署效率低下。
核心思路:RhinoVLA的核心思路是通过优化令牌的使用和计算负担,结合边缘硬件的特性,提升VLA模型的实时性能。采用高效的Qwen3-VL骨干网络和连续动作专家,旨在减少VLM侧的计算需求,同时保持多模态能力。
技术框架:RhinoVLA的整体架构包括高效的视觉编码模块、统一接口和硬件优化策略。统一接口结合了视图注册、72D物理状态-动作槽空间和机器人实例LoRA,以支持跨机器人学习。
关键创新:RhinoVLA的主要创新在于其硬件感知的编译和混合精度执行策略,显著降低了计算延迟。此外,统一接口的设计使得不同机器人之间的观察和动作模式能够在共享策略下进行对齐。
关键设计:RhinoVLA在参数设置上进行了优化,采用了混合精度执行以提高计算效率。网络结构上,结合了Qwen3-VL骨干网络和连续动作专家,确保了模型在保持性能的同时,能够在边缘设备上高效运行。
🖼️ 关键图片
📊 实验亮点
RhinoVLA在Huixi R1上实现了11.69 Hz的端到端推理速度,满足了10 Hz的实时闭环控制目标。与参数规模相似的基线模型π0.5相比,RhinoVLA在下游任务中表现出相当的性能,展示了其在实际应用中的有效性。
🎯 应用场景
RhinoVLA的研究成果在机器人操作、智能制造和自动化系统等领域具有广泛的应用潜力。通过优化边缘硬件的实时处理能力,RhinoVLA能够支持更复杂的机器人任务和多模态交互,推动智能机器人技术的进一步发展。
📄 摘要(原文)
Vision-Language-Action (VLA) models have shown strong potential for robotic manipulation, but real-time deployment on edge hardware remains challenging. In this work, we identify VLM visual and context tokens as a major source of deployment latency: for GEMM-dominated projection operators, computation grows linearly with the number of input tokens when model dimensions are fixed. Motivated by this observation, we propose RhinoVLA, a deployment-oriented VLA model co-designed with the Huixi R1 edge SoC. RhinoVLA adopts a token-efficient Qwen3-VL backbone and a continuous Action Expert, reducing the VLM-side token and computation burden while preserving pretrained multimodal capability. To support cross-robot learning, RhinoVLA further introduces a unified interface that combines View Registry, 72D physical state-action slot space, and robotinstance LoRA, allowing heterogeneous robot observations and action schemas to be aligned under a shared policy. On the deployment side, RhinoVLA is optimized through hardware-aware compilation, mixed-precision execution, and parallel visual encoding. Experiments show that RhinoVLA achieves downstream performance comparable to π0.5 at a similar parameter scale, while reaching 11.69 Hz end-to-end inference on Huixi R1, meeting the 10 Hz real-time closedloop control target. The project will be open-sourced at https://github.com/HuixiAI/RhinoVLA.