NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
作者: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
分类: cs.RO, cs.AI, cs.CV
发布日期: 2025-04-28
💡 一句话要点
提出NORA,一个小型开源通用视觉语言动作模型,用于具身任务,降低计算开销并保持性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 具身智能 机器人自主性 多模态学习 模型小型化
📋 核心要点
- 现有VLA模型视觉编码能力不足,导致物体抓取等任务失败,且模型规模庞大,计算开销高昂,难以应用于实时机器人环境。
- NORA模型采用Qwen-2.5-VL-3B作为骨干,提升视觉语义理解,并在大量机器人演示数据上训练,使用FAST+分词器加速动作序列生成。
- 实验表明,NORA在降低计算开销的同时,优于现有大型VLA模型,更适用于实时机器人自主性任务。
📝 摘要(中文)
现有的视觉-语言-动作(VLA)模型在零样本场景中表现出良好的性能,展示了令人印象深刻的任务执行和推理能力。然而,视觉编码的局限性带来了一个重大挑战,这可能导致诸如物体抓取等任务失败。此外,这些模型通常由于其庞大的规模(通常超过70亿参数)而导致高计算开销。虽然这些模型擅长推理和任务规划,但它们所产生的大量计算开销使其不适用于实时机器人环境,在这些环境中,速度和效率至关重要。为了解决现有VLA模型的局限性,我们提出了NORA,一个30亿参数的模型,旨在减少计算开销,同时保持强大的任务性能。NORA采用Qwen-2.5-VL-3B多模态模型作为其骨干,利用其卓越的视觉语义理解来增强视觉推理和动作定位。此外,我们的模型在97万个真实世界机器人演示上进行训练,并配备了FAST+分词器,以实现高效的动作序列生成。实验结果表明,NORA优于现有的大规模VLA模型,以显著降低的计算开销实现了更好的任务性能,使其成为实时机器人自主性的更实用解决方案。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)模型虽然在零样本任务中展现出潜力,但其视觉编码能力不足,导致在物体抓取等任务中表现不佳。此外,模型参数量巨大,计算开销高昂,难以满足实时机器人应用的需求。因此,需要设计一个更小、更高效的VLA模型,能够在降低计算成本的同时,保持甚至提升任务性能。
核心思路:NORA的核心思路是利用一个预训练的多模态模型(Qwen-2.5-VL-3B)作为骨干网络,该模型具有较强的视觉语义理解能力。通过在大量的真实机器人演示数据上进行微调,使模型能够更好地理解视觉输入并生成相应的动作序列。同时,采用FAST+分词器来提高动作序列生成的效率,从而降低整体的计算开销。
技术框架:NORA模型的技术框架主要包括以下几个部分:1) 视觉编码器:使用Qwen-2.5-VL-3B中的视觉编码器提取图像特征。2) 语言模型:使用Qwen-2.5-VL-3B中的语言模型处理文本指令。3) 动作解码器:基于语言模型的输出,生成相应的动作序列。4) 训练数据:使用97万个真实世界机器人演示数据进行训练。
关键创新:NORA的关键创新在于:1) 模型小型化:将模型参数量控制在30亿,显著降低了计算开销。2) 视觉语义增强:利用Qwen-2.5-VL-3B的强大视觉语义理解能力,提升了模型对视觉输入的理解和推理能力。3) 高效动作生成:采用FAST+分词器,提高了动作序列生成的效率。
关键设计:NORA的关键设计包括:1) 选择Qwen-2.5-VL-3B作为骨干网络,利用其预训练的知识。2) 使用97万个真实世界机器人演示数据进行微调,使模型适应机器人任务。3) 采用FAST+分词器进行动作序列生成,提高效率。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
NORA模型在实验中表现出优于现有大规模VLA模型的性能,同时显著降低了计算开销。具体性能数据和对比基线未在摘要中给出,属于未知信息。但摘要强调NORA在保持或提升任务性能的同时,降低了计算开销,使其更适用于实时机器人应用。
🎯 应用场景
NORA模型适用于各种实时机器人自主性任务,例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。其低计算开销使其能够在资源受限的平台上运行,从而降低了部署成本。NORA的通用性使其能够适应不同的任务和环境,为机器人技术的广泛应用提供了可能。
📄 摘要(原文)
Existing Visual-Language-Action (VLA) models have shown promising performance in zero-shot scenarios, demonstrating impressive task execution and reasoning capabilities. However, a significant challenge arises from the limitations of visual encoding, which can result in failures during tasks such as object grasping. Moreover, these models typically suffer from high computational overhead due to their large sizes, often exceeding 7B parameters. While these models excel in reasoning and task planning, the substantial computational overhead they incur makes them impractical for real-time robotic environments, where speed and efficiency are paramount. To address the limitations of existing VLA models, we propose NORA, a 3B-parameter model designed to reduce computational overhead while maintaining strong task performance. NORA adopts the Qwen-2.5-VL-3B multimodal model as its backbone, leveraging its superior visual-semantic understanding to enhance visual reasoning and action grounding. Additionally, our \model{} is trained on 970k real-world robot demonstrations and equipped with the FAST+ tokenizer for efficient action sequence generation. Experimental results demonstrate that NORA outperforms existing large-scale VLA models, achieving better task performance with significantly reduced computational overhead, making it a more practical solution for real-time robotic autonomy.