Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

📄 arXiv: 2604.20246v1 📥 PDF

作者: Adriana Aida, Walida Amer, Katarina Bankovic, Dhruv Behl, Fabian Busch, Annie Bhalla, Minh Duong, Florian Gienger, Rohan Godse, Denis Grachev, Ralf Gulde, Elisa Hagensieker, Junpeng Hu, Shivam Joshi, Tobias Knoblauch, Likith Kumar, Damien LaRocque, Keerthana Lokesh, Omar Moured, Khiem Nguyen, Christian Preyss, Ranjith Sriganesan, Vikram Singh, Carsten Sponner, Anh Tong, Dominik Tuscher, Marc Tuscher, Pavan Upputuri

分类: cs.RO, cs.AI

发布日期: 2026-04-22

备注: 20 pages, 13 figures


💡 一句话要点

Cortex 2.0:基于世界模型的工业机器人长期操作规划与部署

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业机器人 世界模型 长期规划 视觉-语言-动作模型 机器人操作

📋 核心要点

  1. 现有视觉-语言-动作模型在长期操作任务中,由于缺乏对未来状态的预测和规划,容易产生累积误差,导致任务失败。
  2. Cortex 2.0 提出了一种基于世界模型的规划方法,通过在视觉潜在空间中生成和评估未来轨迹,选择最优轨迹执行。
  3. 实验表明,Cortex 2.0 在复杂的工业环境中,显著优于现有方法,在拾取、分类和拆包等任务中表现出更高的可靠性。

📝 摘要(中文)

工业机器人操作需要在不同机器人形态、任务和变化的对象分布中实现可靠的长期执行。虽然视觉-语言-动作模型已经展示出强大的泛化能力,但它们本质上仍然是反应式的。通过在不评估潜在未来的情况下,根据当前观察优化下一个动作,它们在长期任务中容易出现累积性故障。Cortex 2.0 从反应式控制转变为计划-执行,通过在视觉潜在空间中生成候选未来轨迹,对它们的预期成功率和效率进行评分,然后只选择得分最高的候选轨迹。我们在单臂和双臂操作平台上,针对四个复杂度递增的任务(拾取和放置、物品和垃圾分类、螺丝分类以及鞋盒拆包)评估了 Cortex 2.0。结果表明,Cortex 2.0 始终优于最先进的视觉-语言-动作基线,并在所有任务中取得了最佳结果。该系统在以严重杂乱、频繁遮挡和接触式操作为特征的非结构化环境中保持可靠性,而反应式策略在这些环境中会失效。这些结果表明,基于世界模型的规划可以在复杂的工业环境中可靠地运行。

🔬 方法详解

问题定义:工业机器人操作需要解决在复杂、非结构化的环境中,如何实现可靠的长期任务执行问题。现有的视觉-语言-动作模型虽然具有一定的泛化能力,但它们是反应式的,即根据当前观测直接预测下一步动作,缺乏对未来状态的规划和评估。这种反应式策略在长期任务中容易出现累积误差,导致任务失败,尤其是在存在遮挡、杂乱和接触等复杂情况时。

核心思路:Cortex 2.0 的核心思路是将反应式控制转变为计划-执行模式。它通过构建一个世界模型,能够在视觉潜在空间中预测未来状态,并生成多个候选轨迹。然后,系统对这些轨迹进行评分,评估其成功率和效率,最终选择得分最高的轨迹进行执行。这种基于世界模型的规划方法能够有效地避免累积误差,提高任务的可靠性。

技术框架:Cortex 2.0 的整体架构包含以下几个主要模块:1) 视觉编码器:将原始图像转换为视觉潜在空间的表示。2) 世界模型:基于视觉潜在表示,预测未来状态。3) 轨迹生成器:在视觉潜在空间中生成多个候选轨迹。4) 轨迹评估器:对每个轨迹的成功率和效率进行评分。5) 动作执行器:根据选定的轨迹,执行相应的机器人动作。整个流程是:输入图像 -> 视觉编码 -> 轨迹生成 -> 轨迹评估 -> 选择最优轨迹 -> 动作执行。

关键创新:Cortex 2.0 最重要的技术创新点在于其基于世界模型的规划方法。与传统的反应式控制相比,Cortex 2.0 能够预测未来状态,并对多个候选轨迹进行评估,从而选择最优的执行方案。这种方法能够有效地避免累积误差,提高任务的可靠性,尤其是在复杂的工业环境中。

关键设计:Cortex 2.0 的关键设计包括:1) 使用变分自编码器(VAE)构建视觉潜在空间,实现对图像的有效编码和解码。2) 使用循环神经网络(RNN)构建世界模型,实现对未来状态的预测。3) 使用强化学习训练轨迹评估器,使其能够准确地评估轨迹的成功率和效率。4) 使用多目标优化算法,平衡轨迹的成功率和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cortex 2.0 在单臂和双臂机器人平台上进行了评估,针对四个复杂度递增的任务(拾取和放置、物品和垃圾分类、螺丝分类以及鞋盒拆包)。实验结果表明,Cortex 2.0 始终优于最先进的视觉-语言-动作基线,并在所有任务中取得了最佳结果。具体来说,在鞋盒拆包任务中,Cortex 2.0 的成功率比基线方法提高了 20% 以上。这些结果表明,基于世界模型的规划可以在复杂的工业环境中可靠地运行。

🎯 应用场景

Cortex 2.0 具有广泛的应用前景,可应用于工业自动化、物流仓储、智能制造等领域。例如,它可以用于机器人分拣、装配、包装等任务,提高生产效率和产品质量。此外,该技术还可以应用于服务机器人领域,例如家庭服务、医疗护理等,为人们提供更智能、更便捷的服务。未来,Cortex 2.0 有望成为实现通用机器人操作的关键技术。

📄 摘要(原文)

Industrial robotic manipulation demands reliable long-horizon execution across embodiments, tasks, and changing object distributions. While Vision-Language-Action models have demonstrated strong generalization, they remain fundamentally reactive. By optimizing the next action given the current observation without evaluating potential futures, they are brittle to the compounding failure modes of long-horizon tasks. Cortex 2.0 shifts from reactive control to plan-and-act by generating candidate future trajectories in visual latent space, scoring them for expected success and efficiency, then committing only to the highest-scoring candidate. We evaluate Cortex 2.0 on a single-arm and dual-arm manipulation platform across four tasks of increasing complexity: pick and place, item and trash sorting, screw sorting, and shoebox unpacking. Cortex 2.0 consistently outperforms state-of-the-art Vision-Language-Action baselines, achieving the best results across all tasks. The system remains reliable in unstructured environments characterized by heavy clutter, frequent occlusions, and contact-rich manipulation, where reactive policies fail. These results demonstrate that world-model-based planning can operate reliably in complex industrial environments.