CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving

作者: Minqing Huang, Yujiao Xiang, Zihan Liang, Jiajie Huang, Jingqi Wang, Zhi Xu, Feiyang Tan, Hangning Zhou, Mu Yang, Gong Che

分类: cs.CV, cs.AI

发布日期: 2026-05-11

🔗 代码/项目: GITHUB

💡 一句话要点

提出CoWorld-VLA多专家世界模型框架，通过显式世界表征增强自动驾驶端到端规划能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 端到端自动驾驶 视觉语言动作模型 世界模型 轨迹规划 多模态融合 扩散模型

📋 核心要点

现有VLA模型在规划任务中面临挑战：文本CoT缺乏时空结构，而潜在世界模型难以直接作为动作生成的显式条件。
提出CoWorld-VLA框架，通过多源监督提取四类专家Token（语义、几何、动态、轨迹），为规划器提供结构化的条件信号。
实验表明，该方法在NAVSIM v1基准上显著提升了避障能力与轨迹预测精度，验证了多专家Token在规划中的有效性。

📝 摘要（中文）

视觉-语言-动作（VLA）模型已成为端到端自动驾驶的前沿范式。然而，现有的推理机制在提供面向规划的中间表征方面仍面临挑战：文本思维链（CoT）难以保留连续的时空结构，而潜在空间的世界推理则难以直接作为动作生成的条件。本文提出了CoWorld-VLA，这是一个多专家世界推理框架，将世界表征作为显式条件来指导动作规划。CoWorld-VLA通过多源监督提取互补的世界信息，并将其编码为VLA中的专家Token，从而为规划器提供可访问的条件信号。具体而言，该模型构建了语义交互、几何结构、动态演化和自车轨迹四类Token，分别建模交互意图、空间结构、未来时序动态和行为目标。在动作生成阶段，CoWorld-VLA采用基于扩散模型的层级化多专家融合规划器，在联合去噪过程中与场景上下文耦合，生成连续的自车轨迹。在NAVSIM v1基准测试上的实验表明，CoWorld-VLA在未来场景生成和规划任务中均取得了极具竞争力的结果，展现了出色的避障能力和轨迹精度。

🔬 方法详解

问题定义：论文旨在解决端到端自动驾驶中“感知-决策”鸿沟问题。现有方法要么依赖难以保留时空连续性的文本推理，要么依赖难以解释和直接利用的隐式潜在表征，导致规划器难以获得高质量的决策依据。

核心思路：引入“多专家世界推理”范式，将世界模型提取的知识显式化为一组专家Token。这些Token作为中间表征，既保留了丰富的场景语义，又具备明确的物理意义，从而为后续的动作生成提供强约束条件。

技术框架：系统包含多专家编码器与层级化规划器。编码器通过多源监督提取四类Token：语义交互（意图）、几何结构（空间）、动态演化（时序）及自车轨迹（目标）。规划器采用基于扩散模型的架构，将这些Token作为条件输入，在去噪过程中与场景上下文融合，输出连续的轨迹。

关键创新：核心创新在于将世界模型表征“Token化”并作为规划器的显式输入。这种设计打破了传统端到端模型“黑盒”的局限，使规划过程能够显式地参考交互意图和未来动态，实现了感知与规划的深度解耦与协同。

关键设计：采用了层级化多专家融合机制，通过扩散模型进行轨迹生成。损失函数设计上，结合了多源监督信号以优化专家Token的表征质量，确保其在复杂交通场景下能准确捕捉动态演化与空间约束。

🖼️ 关键图片

📊 实验亮点

在NAVSIM v1基准测试中，CoWorld-VLA在未来场景生成与规划任务上表现优异。实验结果显示，通过引入四类专家Token，模型在碰撞规避率和轨迹预测的平均位移误差（ADE/FDE）指标上均优于基线模型，消融实验进一步证实了各专家Token在提供规划条件方面的互补性与必要性。

🎯 应用场景

该研究主要应用于自动驾驶系统的端到端决策规划模块。通过提供可解释且结构化的世界表征，该技术可显著提升车辆在复杂城市交通环境下的避障能力、路径规划精度及交互决策的安全性，为实现高阶自动驾驶提供更稳健的算法支撑。

📄 摘要（原文）

Vision-Language-Action (VLA) models have emerged as a promising paradigm for end-to-end autonomous driving. However, existing reasoning mechanisms still struggle to provide planning-oriented intermediate representations: textual Chain-of-Thought (CoT) fails to preserve continuous spatiotemporal structure, while latent world reasoning remains difficult to use as a direct condition for action generation. In this paper, we propose CoWorld-VLA, a multi-expert world reasoning framework for autonomous driving, where world representations serve as explicit conditions to guide action planning. CoWorld-VLA extracts complementary world information through multi-source supervision and encodes it into expert tokens within the VLA, thereby providing planner-accessible conditioning signals. Specifically, we construct four types of tokens: semantic interaction, geometric structure, dynamic evolution, and ego trajectory tokens, which respectively model interaction intent, spatial structure, future temporal dynamics, and behavioral goals. During action generation, CoWorld-VLA employs a diffusion-based hierarchical multi-expert fusion planner, which is coupled with scene context throughout the joint denoising process to generate continuous ego trajectories. Experiments show that CoWorld-VLA achieves competitive results in both future scene generation and planning on the NAVSIM v1 benchmark, demonstrating strong performance in collision avoidance and trajectory accuracy. Ablation studies further validate the complementarity of expert tokens and their effectiveness as planning conditions for action generation. Code will be available at https://github.com/potatochip1211/CoWorld-VLA.

CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理