CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

作者: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

分类: cs.CV, cs.RO

发布日期: 2025-08-28 (更新: 2025-10-01)

备注: Accepted to NeurIPS 2025, Project Page: https://jiutian-vl.github.io/CogVLA-page

🔗 代码/项目: GITHUB

💡 一句话要点

CogVLA：通过指令驱动的路由和稀疏化实现认知对齐的视觉-语言-动作模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 指令驱动 路由与稀疏化 机器人控制 多模态学习

📋 核心要点

现有VLA模型依赖大量后训练，计算开销大，限制了可扩展性和部署。
CogVLA利用指令驱动的路由和稀疏化，模仿人类多模态协调，提升效率和性能。
CogVLA在LIBERO和真实机器人任务上取得SOTA，训练成本降低2.5倍，推理延迟降低2.8倍。

📝 摘要（中文）

本文提出CogVLA，一个认知对齐的视觉-语言-动作框架，它利用指令驱动的路由和稀疏化来提高效率和性能。CogVLA从人类多模态协调中汲取灵感，并引入了一个三阶段渐进式架构。首先，基于Encoder-FiLM的聚合路由（EFA-Routing）将指令信息注入视觉编码器，以选择性地聚合和压缩双流视觉tokens，形成指令感知的潜在表示。其次，基于这种紧凑的视觉编码，基于LLM-FiLM的剪枝路由（LFP-Routing）通过剪枝指令不相关的视觉tokens，将动作意图引入语言模型，从而实现token级别的稀疏性。第三，为了确保压缩后的感知输入仍然可以支持准确和连贯的动作生成，引入了V-L-A耦合注意力（CAtten），它将因果视觉-语言注意力与双向动作并行解码相结合。在LIBERO基准测试和真实机器人任务上的大量实验表明，CogVLA实现了最先进的性能，成功率分别为97.4%和70.0%，同时与OpenVLA相比，训练成本降低了2.5倍，推理延迟降低了2.8倍。CogVLA已开源。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型依赖于预训练的视觉-语言模型(VLM)，需要大量的后训练，导致计算开销过高，限制了模型的可扩展性和部署。这些模型通常无法有效地利用指令信息，导致冗余计算和次优性能。

核心思路：CogVLA的核心思路是模仿人类的多模态协调过程，通过指令驱动的路由和稀疏化，选择性地处理和压缩视觉信息，并将动作意图融入语言模型中，从而提高效率和性能。这种方法旨在减少不必要的计算，并专注于与当前指令相关的视觉信息。

技术框架：CogVLA采用三阶段渐进式架构：1) EFA-Routing：将指令信息注入视觉编码器，选择性地聚合和压缩视觉tokens。2) LFP-Routing：基于压缩后的视觉编码，剪枝指令不相关的视觉tokens，实现token级别的稀疏性。3) V-L-A Coupled Attention (CAtten)：结合因果视觉-语言注意力与双向动作并行解码，确保压缩后的感知输入能够支持准确和连贯的动作生成。

关键创新：CogVLA的关键创新在于指令驱动的路由和稀疏化机制，以及V-L-A耦合注意力。EFA-Routing和LFP-Routing通过指令信息指导视觉信息的选择和压缩，减少了冗余计算。CAtten则通过耦合视觉、语言和动作信息，提高了动作生成的准确性和连贯性。与现有方法相比，CogVLA更加注重指令信息的利用，并采用稀疏化的方式提高效率。

关键设计：EFA-Routing和LFP-Routing都使用了FiLM (Feature-wise Linear Modulation) 层，将指令信息融入到视觉和语言模型中。EFA-Routing通过FiLM层调整视觉编码器的输出，LFP-Routing则通过FiLM层控制token的剪枝。CAtten结合了因果注意力和双向注意力，以更好地建模视觉、语言和动作之间的依赖关系。具体的参数设置和损失函数细节在论文中未明确说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

CogVLA在LIBERO基准测试中取得了97.4%的成功率，在真实机器人任务中取得了70.0%的成功率，均达到了SOTA水平。同时，与OpenVLA相比，CogVLA的训练成本降低了2.5倍，推理延迟降低了2.8倍，表明其在效率和性能方面都具有显著优势。

🎯 应用场景

CogVLA具有广泛的应用前景，包括机器人控制、自动驾驶、智能助手等领域。它可以用于训练更高效、更智能的机器人，使其能够更好地理解人类指令并执行复杂的任务。此外，CogVLA还可以应用于虚拟现实和增强现实等领域，提供更自然、更流畅的人机交互体验。

📄 摘要（原文）

Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) Encoder-FiLM based Aggregation Routing (EFA-Routing) injects instruction information into the vision encoder to selectively aggregate and compress dual-stream visual tokens, forming a instruction-aware latent representation. 2) Building upon this compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing) introduces action intent into the language model by pruning instruction-irrelevant visually grounded tokens, thereby achieving token-level sparsity. 3) To ensure that compressed perception inputs can still support accurate and coherent action generation, we introduce V-L-A Coupled Attention (CAtten), which combines causal vision-language attention with bidirectional action parallel decoding. Extensive experiments on the LIBERO benchmark and real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art performance with success rates of 97.4% and 70.0%, respectively, while reducing training costs by 2.5-fold and decreasing inference latency by 2.8-fold compared to OpenVLA. CogVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/CogVLA.

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理