Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training
作者: Jiaxuan Gao, Yongjian Guo, Zhong Guan, Wen Huang, Wanlun Ma, Xi Xiao, Junwu Xiong, Sheng Wen
分类: cs.CV, cs.AI
发布日期: 2026-05-08
💡 一句话要点
提出Sword世界模型框架,通过动态潜在引导与风格增强提升VLA策略训练的鲁棒性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 世界模型 具身智能 VLA模型 闭环推演 表征解耦 强化学习 长程预测
📋 核心要点
- 现有世界模型在闭环推演中对视觉扰动极其敏感,易产生级联幻觉,且长程预测中存在严重的误差累积问题。
- 提出Sword框架,通过结构引导的风格增强实现视觉与动力学解耦,并利用动态潜在引导机制提升推理一致性。
- 实验证明,该方法在LIBERO基准上显著提升了生成质量与鲁棒性,并有效增强了VLA模型的强化学习后训练效果。
📝 摘要(中文)
视觉-语言-动作(VLA)模型与世界模型的结合日益受到关注,将世界模型作为生成式模拟器进行策略优化已成为主流范式。然而,现有世界模型在LIBERO等基准测试中面临泛化能力差和长程误差累积的挑战。在闭环推演中,模型对初始状态扰动(如光照、颜色变化)高度敏感,易引发级联幻觉,导致图像模糊或过曝,且长程预测质量随时间衰减。为解决上述问题,本文提出了Sword框架。该方法引入结构引导的风格增强技术,将环境视觉纹理与任务动力学解耦,从而提升泛化性。此外,通过动态潜在引导(Dynamic Latent Bootstrapping)机制,在保持低内存消耗的同时确保训练与推理的一致性。LIBERO基准测试表明,Sword在泛化性、生成质量、鲁棒性及VLA策略强化学习成功率方面均显著优于基线模型WoVR。
🔬 方法详解
问题定义:论文旨在解决VLA模型在基于世界模型的模拟器中进行策略优化时,因视觉风格敏感性导致的闭环推演失效,以及长程预测中误差累积导致模型性能退化的问题。
核心思路:核心在于将环境的视觉纹理(Style)与任务相关的动力学(Dynamics)进行解耦。通过在训练阶段引入结构引导的风格增强,使模型专注于学习本质的物理交互规律,而非过拟合于特定的视觉外观。
技术框架:Sword框架包含两个核心模块:一是结构引导的风格增强模块,用于在潜在空间中对视觉特征进行解耦;二是动态潜在引导模块,通过在推理过程中动态调整潜在状态,维持长程预测的稳定性与一致性。
关键创新:最重要的创新在于“动态潜在引导”,它在不显著增加内存开销的前提下,通过引导机制修正预测轨迹,有效缓解了长程预测中的误差漂移,这是现有自回归世界模型难以克服的瓶颈。
关键设计:该方法采用了特定的解耦损失函数,强制模型在潜在空间中分离视觉风格与结构信息;同时,动态潜在引导机制通过对潜在变量的实时校准,确保了模型在长序列生成中能够保持对初始状态的忠实度,避免了级联幻觉的产生。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Sword在LIBERO基准测试中表现优异,在处理视觉扰动时的鲁棒性显著高于基线模型WoVR。在长程闭环推演中,该方法有效抑制了图像模糊与过曝现象,大幅提升了生成轨迹的保真度。此外,在基于模拟器的强化学习后训练中,Sword显著提高了VLA策略的最终任务成功率,证明了其作为高质量模拟器的实用价值。
🎯 应用场景
该研究主要应用于机器人具身智能领域,特别是基于模拟器的VLA策略强化学习。通过提供高保真、鲁棒性强的虚拟环境,Sword能够显著降低机器人策略训练对真实物理环境的依赖,加速复杂操作任务(如LIBERO基准中的多任务操作)的策略收敛与泛化能力提升。
📄 摘要(原文)
The integration of Vision-Language-Action (VLA) models with World Models has gained increasing attention. One representative approach treats learned World Models as generative simulators, enabling policy optimization entirely within "imagination." However, when deployed as simulators for specific environments such as the LIBERO benchmark, existing World Models often suffer from poor generalization and long-horizon error accumulation. During closed-loop rollouts, these models are highly sensitive to initial-state perturbations; minor changes in color, illumination, and other visual factors can trigger cascading hallucinations, leading to severe blurriness or overexposure. Moreover, long-horizon error accumulation further degrades the quality and fidelity of predicted future states. These issues limit the reliability of World Models as simulators. To mitigate these problems, we propose Sword, a robust World Model framework. Our method introduces Structure-Guided Style Augmentation to disentangle the visual textures of interactive environments from task-relevant dynamics, thereby improving generalization. We further propose Dynamic Latent Bootstrapping, which maintains consistency between training and inference while keeping memory consumption low. Extensive experiments on the LIBERO benchmark show that our method significantly outperforms the baseline WoVR in terms of generalization, generation quality, robustness, fidelity, and the success rate of reinforcement-learning post-training for VLA models.