CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

📄 arXiv: 2411.19650v1 📥 PDF

作者: Qixiu Li, Yaobo Liang, Zeyu Wang, Lin Luo, Xi Chen, Mozheng Liao, Fangyun Wei, Yu Deng, Sicheng Xu, Yizhong Zhang, Xiaofan Wang, Bei Liu, Jianlong Fu, Jianmin Bao, Dong Chen, Yuanchun Shi, Jiaolong Yang, Baining Guo

分类: cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2024-11-29

备注: Project Webpage: https://cogact.github.io/


💡 一句话要点

CogACT:用于机器人操作中认知与行动协同的基础视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人操作 扩散模型 动作序列建模 Transformer 具身智能 VLA VLM

📋 核心要点

  1. 现有VLA模型直接利用VLM进行动作预测,但由于缺乏针对动作的专门设计,导致任务性能不佳。
  2. CogACT提出组件化的VLA架构,包含一个以VLM输出为条件的专用动作模块,提升动作序列建模能力。
  3. 实验表明,CogACT在模拟和真实机器人环境中显著超越现有VLA模型,并展现出良好的泛化能力。

📝 摘要(中文)

大型视觉-语言-动作(VLA)模型的进步显著提升了机器人操作在语言引导的任务执行和对未见场景的泛化能力。虽然现有的VLA模型通过从预训练的大型视觉-语言模型(VLM)进行适配,已经展示了有希望的泛化能力,但它们的任务性能仍然不令人满意,这体现在不同环境中较低的任务成功率。本文提出了一种新的、先进的、源于VLM的VLA架构。与之前通过简单动作量化直接将VLM重新用于动作预测的工作不同,我们提出了一个组件化的VLA架构,该架构具有一个专门的、以VLM输出为条件的动作模块。我们系统地研究了动作模块的设计,并证明了使用扩散动作Transformer进行动作序列建模可以显著增强性能,以及它们良好的缩放行为。我们还进行了全面的实验和消融研究,以评估我们具有不同设计的模型的有效性。在模拟和真实环境中的5个机器人上的评估表明,我们的模型不仅在任务性能上显著超过了现有的VLA模型,而且还表现出对新机器人的卓越适应性和对未见物体和背景的泛化能力。在模拟评估中,它超过了具有相似模型大小(7B)的OpenVLA的平均成功率35%以上,在真实机器人实验中超过55%。在模拟中,它也超过了大型RT-2-X模型(55B) 18%的绝对成功率。

🔬 方法详解

问题定义:现有VLA模型,特别是那些直接从VLM适配而来的模型,在机器人操作任务中表现出泛化能力不足和任务成功率低的问题。它们通常采用简单的动作量化方法,缺乏对动作序列建模的专门设计,无法充分利用视觉和语言信息来生成精确的动作。

核心思路:CogACT的核心思路是解耦视觉-语言理解和动作生成过程,通过一个专门的动作模块来处理VLM的输出,从而更好地建模动作序列。这种组件化的设计允许针对动作生成进行优化,并提高模型的整体性能和泛化能力。

技术框架:CogACT的整体架构包含一个预训练的VLM和一个专门设计的动作模块。VLM负责处理视觉和语言输入,提取场景的语义信息。动作模块以VLM的输出为条件,使用扩散动作Transformer来生成动作序列。整个流程可以概括为:视觉和语言输入 -> VLM编码 -> 动作模块解码 -> 动作序列。

关键创新:CogACT的关键创新在于其组件化的VLA架构,特别是专门设计的动作模块。与直接使用VLM进行动作预测的方法不同,CogACT将动作生成过程解耦,并使用扩散动作Transformer来建模动作序列,从而提高了动作生成的精度和效率。这种设计允许模型更好地适应不同的机器人和环境。

关键设计:动作模块的核心是扩散动作Transformer。该Transformer使用扩散模型来生成动作序列,通过逐步去噪的方式,从随机噪声中生成符合任务要求的动作。损失函数包括扩散损失和动作预测损失,用于优化动作模块的性能。此外,论文还研究了不同的动作表示方法和动作模块的结构,以进一步提高模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CogACT在模拟和真实机器人实验中均取得了显著的性能提升。在模拟环境中,CogACT的平均成功率超过了OpenVLA(7B)35%以上,超过了RT-2-X(55B)18%。在真实机器人实验中,CogACT的平均成功率超过了OpenVLA 55%。这些结果表明,CogACT在任务性能和泛化能力方面均优于现有VLA模型。

🎯 应用场景

CogACT在机器人操作领域具有广泛的应用前景,可用于自动化装配、物流分拣、家庭服务等场景。该模型能够提升机器人在复杂环境中的任务执行能力,并降低对人工示教的依赖,从而加速机器人的普及和应用。未来,CogACT有望与其他AI技术结合,实现更智能、更自主的机器人系统。

📄 摘要(原文)

The advancement of large Vision-Language-Action (VLA) models has significantly improved robotic manipulation in terms of language-guided task execution and generalization to unseen scenarios. While existing VLAs adapted from pretrained large Vision-Language-Models (VLM) have demonstrated promising generalizability, their task performance is still unsatisfactory as indicated by the low tasks success rates in different environments. In this paper, we present a new advanced VLA architecture derived from VLM. Unlike previous works that directly repurpose VLM for action prediction by simple action quantization, we propose a omponentized VLA architecture that has a specialized action module conditioned on VLM output. We systematically study the design of the action module and demonstrates the strong performance enhancement with diffusion action transformers for action sequence modeling, as well as their favorable scaling behaviors. We also conduct comprehensive experiments and ablation studies to evaluate the efficacy of our models with varied designs. The evaluation on 5 robot embodiments in simulation and real work shows that our model not only significantly surpasses existing VLAs in task performance and but also exhibits remarkable adaptation to new robots and generalization to unseen objects and backgrounds. It exceeds the average success rates of OpenVLA which has similar model size (7B) with ours by over 35% in simulated evaluation and 55% in real robot experiments. It also outperforms the large RT-2-X model (55B) by 18% absolute success rates in simulation. Code and models can be found on our project page (https://cogact.github.io/).