World2Act: Latent Action Post-Training via Skill-Compositional World Models
作者: An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid
分类: cs.CV
发布日期: 2026-03-11
备注: Project page: https://wm2act.github.io/
💡 一句话要点
提出World2Act,通过技能组合世界模型进行后训练,提升具身智能体的泛化能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 世界模型 具身智能 后训练 对比学习 技能分解 视觉-语言-动作 机器人
📋 核心要点
- 现有基于世界模型的视觉-语言-动作策略后训练方法依赖像素空间监督,易受像素伪影和世界模型幻觉的影响。
- World2Act通过对比学习,直接将视觉-语言-动作策略的动作与世界模型的潜在空间对齐,减少对像素的依赖。
- 论文提出基于LLM的技能分解流程,生成技能组合世界模型,并在RoboCasa和LIBERO数据集上取得SOTA结果,真实世界性能提升6.7%。
📝 摘要(中文)
世界模型(WMs)已成为一种有前景的方法,用于对视觉-语言-动作(VLA)策略进行后训练,以提高在环境变化下的鲁棒性和泛化能力。然而,大多数基于WM的后训练方法依赖于像素空间监督,使得策略对像素级伪影和不完善的WM rollout产生的幻觉敏感。我们引入了World2Act,一个后训练框架,它使用对比匹配目标将VLA动作直接与WM视频动态潜在空间对齐,从而减少对像素的依赖。后训练性能与rollout质量相关,但当前的WM在任意长度的视频生成方面存在困难,因为它们主要在固定长度的片段上进行训练,而机器人执行的持续时间差异很大。为了解决这个问题,我们提出了一个自动的基于LLM的技能分解流程,将高层指令分割成低层提示。我们的流程生成了RoboCasa-Skill和LIBERO-Skill,支持技能组合的WM,这些WM在不同的任务范围内保持时间上的一致性。经验表明,将World2Act应用于GR00T-N1.6和Cosmos Policy等VLA,在RoboCasa和LIBERO上实现了最先进的结果,并将真实世界的性能提高了6.7%,从而增强了具身智能体的泛化能力。
🔬 方法详解
问题定义:现有基于世界模型的视觉-语言-动作策略后训练方法,过度依赖像素级别的监督信号,导致模型容易受到像素伪影和世界模型rollout过程中产生的幻觉的影响。此外,现有世界模型通常在固定长度的视频片段上训练,难以处理机器人执行任务时变长的动作序列,限制了其在实际机器人任务中的应用。
核心思路:World2Act的核心思路是通过对比学习,将视觉-语言-动作策略的动作直接与世界模型的视频动态潜在空间对齐,从而减少对像素级别信息的依赖。同时,利用基于LLM的技能分解流程,将高层指令分解为低层技能提示,构建技能组合的世界模型,以支持任意长度的视频生成,从而适应机器人任务中动作序列长度的变化。
技术框架:World2Act框架主要包含以下几个模块:1) 视觉-语言-动作策略(VLA Policy):负责根据视觉输入和语言指令生成动作。2) 世界模型(World Model):用于预测环境的未来状态。3) 对比学习模块:将VLA策略生成的动作与世界模型的潜在空间表示进行对比学习,使得两者在潜在空间中对齐。4) 技能分解模块:利用LLM将高层指令分解为低层技能提示,用于训练技能组合的世界模型。
关键创新:论文的关键创新在于:1) 提出了World2Act框架,通过对比学习将VLA动作与世界模型的潜在空间对齐,减少了对像素级别信息的依赖。2) 提出了基于LLM的技能分解流程,用于构建技能组合的世界模型,从而支持任意长度的视频生成。3) 将技能组合的世界模型应用于机器人任务,提高了具身智能体的泛化能力。
关键设计:在对比学习模块中,使用了InfoNCE损失函数来最大化正样本对(即VLA动作和对应的世界模型潜在表示)之间的相似度,同时最小化负样本对之间的相似度。技能分解模块使用了预训练的LLM,并针对机器人任务进行了微调,以提高技能分解的准确性。世界模型使用了变分自编码器(VAE)结构,用于学习环境的潜在表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,World2Act在RoboCasa和LIBERO数据集上取得了state-of-the-art的结果。具体而言,在真实世界环境中,World2Act将具身智能体的性能提高了6.7%,显著提升了其泛化能力。此外,技能组合的世界模型能够生成更长、更连贯的视频序列,从而更好地支持机器人执行复杂任务。
🎯 应用场景
该研究成果可应用于机器人导航、物体操作、人机协作等领域。通过提升具身智能体的泛化能力,可以使机器人在更复杂、更真实的环境中执行任务,例如家庭服务机器人、工业自动化机器人等。未来,该方法有望扩展到更多模态的输入,例如触觉、听觉等,从而构建更强大的具身智能体。
📄 摘要(原文)
World Models (WMs) have emerged as a promising approach for post-training Vision-Language-Action (VLA) policies to improve robustness and generalization under environmental changes. However, most WM-based post-training methods rely on pixel-space supervision, making policies sensitive to pixel-level artifacts and hallucination from imperfect WM rollouts. We introduce World2Act, a post-training framework that aligns VLA actions directly with WM video-dynamics latents using a contrastive matching objective, reducing dependence on pixels. Post-training performance is tied to rollout quality, yet current WMs struggle with arbitrary-length video generation as they are mostly trained on fixed-length clips while robotic execution durations vary widely. To address this, we propose an automatic LLM-based skill-decomposition pipeline that segments high-level instructions into low-level prompts. Our pipeline produces RoboCasa-Skill and LIBERO-Skill, supporting skill-compositional WMs that remain temporally consistent across diverse task horizons. Empirically, applying World2Act to VLAs like GR00T-N1.6 and Cosmos Policy achieves state-of-the-art results on RoboCasa and LIBERO, and improves real-world performance by 6.7%, enhancing embodied agent generalization.