OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning
作者: Fanqi Lin, Ruiqian Nai, Yingdong Hu, Jiacheng You, Junming Zhao, Yang Gao
分类: cs.RO
发布日期: 2025-05-17
💡 一句话要点
提出OneTwoVLA,统一视觉-语言-动作模型,提升机器人自适应推理能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作模型 机器人推理 自适应推理 具身智能 长时程任务规划
📋 核心要点
- 现有双系统机器人方法在推理和行动间存在理解不足和延迟问题,限制了任务执行效率。
- OneTwoVLA通过统一的视觉-语言-动作模型,自适应切换推理和行动模式,解决上述问题。
- 实验表明,OneTwoVLA在长时程任务、错误处理、人机交互和视觉定位方面表现出色。
📝 摘要(中文)
本文提出了一种名为OneTwoVLA的统一视觉-语言-动作模型,旨在提升机器人执行多样化任务时的协同推理和行动能力。与近期将高层推理与低层行动分离的双系统方法不同,OneTwoVLA是一个单一模型,能够同时执行行动(系统一)和推理(系统二)。该模型可以在任务执行的关键时刻自适应地切换到显式推理模式,并在其他时间基于最新的推理结果生成动作。为了进一步提升OneTwoVLA的推理和泛化能力,我们设计了一个可扩展的流程,用于合成以具身推理为中心的视觉-语言数据,并将其与机器人数据进行联合训练。通过大量实验验证了OneTwoVLA的有效性,突出了其在长时程任务规划、错误检测与恢复、自然人机交互和可泛化的视觉基础等四个关键能力上的优越性能,使模型能够执行诸如制作火锅或调制鸡尾酒等长时程、高度灵巧的操作任务。
🔬 方法详解
问题定义:现有机器人系统通常采用双系统架构,将高层推理和低层动作执行分离。这种分离导致两个系统之间缺乏充分的相互理解,并且存在通信延迟,限制了机器人执行复杂任务的效率和鲁棒性。论文旨在解决这一问题,提出一种能够统一进行视觉、语言理解和动作规划的端到端模型。
核心思路:OneTwoVLA的核心思路是将推理(System Two)和行动(System One)集成到一个统一的模型中,并使其能够自适应地在两种模式之间切换。在任务执行的关键时刻,模型进行显式推理,而在其他时间,则基于最近的推理结果生成动作。这种设计旨在模拟人类的认知过程,提高机器人的反应速度和决策质量。
技术框架:OneTwoVLA的整体架构包含视觉编码器、语言编码器、动作解码器以及一个自适应切换模块。视觉编码器和语言编码器分别处理视觉输入和语言指令,动作解码器生成机器人的动作序列。自适应切换模块根据当前任务状态和模型置信度,决定何时进行显式推理,何时直接生成动作。该模型通过联合训练视觉、语言和动作数据进行优化。
关键创新:OneTwoVLA的关键创新在于其统一的架构和自适应切换机制。与传统的双系统方法相比,OneTwoVLA避免了系统间的通信延迟,并能够更好地利用视觉和语言信息进行推理和行动。此外,论文还提出了一个可扩展的数据合成流程,用于生成以具身推理为中心的视觉-语言数据,进一步提升了模型的推理和泛化能力。
关键设计:自适应切换模块的设计是关键。该模块可能基于一个置信度评分或注意力机制来决定何时进行显式推理。损失函数可能包含动作预测损失、推理损失以及一个正则化项,用于鼓励模型在必要时才进行推理。具体的网络结构和参数设置在论文中应该有详细描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
OneTwoVLA在长时程任务规划、错误检测与恢复、自然人机交互和可泛化的视觉基础等四个关键能力上表现出优越性能。实验结果表明,OneTwoVLA能够成功执行诸如制作火锅或调制鸡尾酒等长时程、高度灵巧的操作任务,证明了其在复杂环境下的适应性和鲁棒性。具体的性能提升数据需要在论文中查找。
🎯 应用场景
OneTwoVLA具有广泛的应用前景,可用于开发更智能、更自主的机器人系统,应用于智能制造、家庭服务、医疗保健等领域。例如,在智能制造中,机器人可以利用OneTwoVLA执行复杂的装配任务;在家庭服务中,机器人可以根据用户的语言指令完成各种家务;在医疗保健中,机器人可以辅助医生进行手术或护理病人。该研究有望推动机器人技术的发展,使其更好地服务于人类社会。
📄 摘要(原文)
General-purpose robots capable of performing diverse tasks require synergistic reasoning and acting capabilities. However, recent dual-system approaches, which separate high-level reasoning from low-level acting, often suffer from challenges such as limited mutual understanding of capabilities between systems and latency issues. This paper introduces OneTwoVLA, a single unified vision-language-action model that can perform both acting (System One) and reasoning (System Two). Crucially, OneTwoVLA adaptively switches between two modes: explicitly reasoning at critical moments during task execution, and generating actions based on the most recent reasoning at other times. To further unlock OneTwoVLA's reasoning and generalization capabilities, we design a scalable pipeline for synthesizing embodied reasoning-centric vision-language data, used for co-training with robot data. We validate OneTwoVLA's effectiveness through extensive experiments, highlighting its superior performance across four key capabilities: long-horizon task planning, error detection and recovery, natural human-robot interaction, and generalizable visual grounding, enabling the model to perform long-horizon, highly dexterous manipulation tasks such as making hotpot or mixing cocktails.