World2Act: Latent Action Post-Training via Skill-Compositional World Models

作者: An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid

分类: cs.CV

发布日期: 2026-03-11

备注: Project page: https://wm2act.github.io/

💡 一句话要点

提出World2Act，通过技能组合世界模型进行后训练，提升具身智能体的泛化能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 具身智能 后训练 对比学习 技能分解 视觉-语言-动作 机器人

📋 核心要点

现有基于世界模型的视觉-语言-动作策略后训练方法依赖像素空间监督，易受像素伪影和世界模型幻觉的影响。
World2Act通过对比学习，直接将视觉-语言-动作策略的动作与世界模型的潜在空间对齐，减少对像素的依赖。
论文提出基于LLM的技能分解流程，生成技能组合世界模型，并在RoboCasa和LIBERO数据集上取得SOTA结果，真实世界性能提升6.7%。

📝 摘要（中文）

世界模型(WMs)已成为一种有前景的方法，用于对视觉-语言-动作(VLA)策略进行后训练，以提高在环境变化下的鲁棒性和泛化能力。然而，大多数基于WM的后训练方法依赖于像素空间监督，使得策略对像素级伪影和不完善的WM rollout产生的幻觉敏感。我们引入了World2Act，一个后训练框架，它使用对比匹配目标将VLA动作直接与WM视频动态潜在空间对齐，从而减少对像素的依赖。后训练性能与rollout质量相关，但当前的WM在任意长度的视频生成方面存在困难，因为它们主要在固定长度的片段上进行训练，而机器人执行的持续时间差异很大。为了解决这个问题，我们提出了一个自动的基于LLM的技能分解流程，将高层指令分割成低层提示。我们的流程生成了RoboCasa-Skill和LIBERO-Skill，支持技能组合的WM，这些WM在不同的任务范围内保持时间上的一致性。经验表明，将World2Act应用于GR00T-N1.6和Cosmos Policy等VLA，在RoboCasa和LIBERO上实现了最先进的结果，并将真实世界的性能提高了6.7%，从而增强了具身智能体的泛化能力。

🔬 方法详解

问题定义：现有基于世界模型的视觉-语言-动作策略后训练方法，过度依赖像素级别的监督信号，导致模型容易受到像素伪影和世界模型rollout过程中产生的幻觉的影响。此外，现有世界模型通常在固定长度的视频片段上训练，难以处理机器人执行任务时变长的动作序列，限制了其在实际机器人任务中的应用。

核心思路：World2Act的核心思路是通过对比学习，将视觉-语言-动作策略的动作直接与世界模型的视频动态潜在空间对齐，从而减少对像素级别信息的依赖。同时，利用基于LLM的技能分解流程，将高层指令分解为低层技能提示，构建技能组合的世界模型，以支持任意长度的视频生成，从而适应机器人任务中动作序列长度的变化。

技术框架：World2Act框架主要包含以下几个模块：1) 视觉-语言-动作策略（VLA Policy）：负责根据视觉输入和语言指令生成动作。2) 世界模型（World Model）：用于预测环境的未来状态。3) 对比学习模块：将VLA策略生成的动作与世界模型的潜在空间表示进行对比学习，使得两者在潜在空间中对齐。4) 技能分解模块：利用LLM将高层指令分解为低层技能提示，用于训练技能组合的世界模型。

关键创新：论文的关键创新在于：1) 提出了World2Act框架，通过对比学习将VLA动作与世界模型的潜在空间对齐，减少了对像素级别信息的依赖。2) 提出了基于LLM的技能分解流程，用于构建技能组合的世界模型，从而支持任意长度的视频生成。3) 将技能组合的世界模型应用于机器人任务，提高了具身智能体的泛化能力。

关键设计：在对比学习模块中，使用了InfoNCE损失函数来最大化正样本对（即VLA动作和对应的世界模型潜在表示）之间的相似度，同时最小化负样本对之间的相似度。技能分解模块使用了预训练的LLM，并针对机器人任务进行了微调，以提高技能分解的准确性。世界模型使用了变分自编码器（VAE）结构，用于学习环境的潜在表示。

🖼️ 关键图片

📊 实验亮点

实验结果表明，World2Act在RoboCasa和LIBERO数据集上取得了state-of-the-art的结果。具体而言，在真实世界环境中，World2Act将具身智能体的性能提高了6.7%，显著提升了其泛化能力。此外，技能组合的世界模型能够生成更长、更连贯的视频序列，从而更好地支持机器人执行复杂任务。

🎯 应用场景

该研究成果可应用于机器人导航、物体操作、人机协作等领域。通过提升具身智能体的泛化能力，可以使机器人在更复杂、更真实的环境中执行任务，例如家庭服务机器人、工业自动化机器人等。未来，该方法有望扩展到更多模态的输入，例如触觉、听觉等，从而构建更强大的具身智能体。

📄 摘要（原文）

World Models (WMs) have emerged as a promising approach for post-training Vision-Language-Action (VLA) policies to improve robustness and generalization under environmental changes. However, most WM-based post-training methods rely on pixel-space supervision, making policies sensitive to pixel-level artifacts and hallucination from imperfect WM rollouts. We introduce World2Act, a post-training framework that aligns VLA actions directly with WM video-dynamics latents using a contrastive matching objective, reducing dependence on pixels. Post-training performance is tied to rollout quality, yet current WMs struggle with arbitrary-length video generation as they are mostly trained on fixed-length clips while robotic execution durations vary widely. To address this, we propose an automatic LLM-based skill-decomposition pipeline that segments high-level instructions into low-level prompts. Our pipeline produces RoboCasa-Skill and LIBERO-Skill, supporting skill-compositional WMs that remain temporally consistent across diverse task horizons. Empirically, applying World2Act to VLAs like GR00T-N1.6 and Cosmos Policy achieves state-of-the-art results on RoboCasa and LIBERO, and improves real-world performance by 6.7%, enhancing embodied agent generalization.

World2Act: Latent Action Post-Training via Skill-Compositional World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理