DiLA: Disentangled Latent Action World Models

📄 arXiv: 2605.15725v1 📥 PDF

作者: Tianqiu Zhang, Muyang Lyu, Yufan Zhang, Fang Fang, Si Wu

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-05-15

备注: Project Page: http://disentangled-latent-action-world-models.github.io


💡 一句话要点

提出DiLA以解决潜在动作模型的抽象与生成质量权衡问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 潜在动作模型 内容-结构解耦 视频生成 自监督学习 动作抽象 生成保真度 视觉规划

📋 核心要点

  1. 现有的潜在动作模型在动作抽象与生成质量之间存在权衡,限制了其应用效果。
  2. DiLA通过内容-结构解耦的方式,促进潜在动作学习与解耦的共同发展,从而解决了上述权衡问题。
  3. DiLA在视频生成质量、动作转移和视觉规划等方面表现优越,相较于现有方法有显著提升。

📝 摘要(中文)

潜在动作模型(LAMs)通过推断连续帧之间的抽象动作,从未标记的视频中学习世界模型。然而,LAMs面临着动作抽象与生成保真度之间的基本权衡。现有方法通常通过使用预训练世界模型的两阶段训练或将预测限制为光流来规避此问题。本文提出了DiLA,一种新颖的解耦潜在动作世界模型,旨在通过内容-结构解耦来解决这一权衡。我们的关键见解是,解耦与潜在动作学习是共同发展的:潜在动作学习中的预测瓶颈促使模型将空间布局提炼到结构路径中,同时将视觉细节卸载到单独的内容路径中以进行生成。这种协同作用产生了一个连续的、语义结构化的潜在动作空间,而不妨碍生成质量。DiLA在视频生成质量、动作转移、视觉规划和流形可解释性方面取得了优越的结果,确立了DiLA作为一个统一框架的地位,同时实现了高水平的动作抽象和高保真生成,推动了自监督世界模型学习的前沿。

🔬 方法详解

问题定义:本文旨在解决潜在动作模型在动作抽象与生成保真度之间的权衡问题。现有方法通常依赖于两阶段训练或光流预测,导致生成质量不足。

核心思路:DiLA的核心思路是通过内容-结构解耦来实现潜在动作学习与解耦的协同发展。解耦过程使得模型能够将空间布局与视觉细节分开处理,从而提高生成质量。

技术框架:DiLA的整体架构包括两个主要路径:结构路径和内容路径。结构路径负责提取空间布局,而内容路径则专注于生成视觉细节。模型通过这两条路径的协同工作,形成一个语义结构化的潜在动作空间。

关键创新:DiLA的主要创新在于其解耦机制,通过将内容与结构分开处理,克服了传统潜在动作模型的局限。这一机制使得模型在保持高抽象度的同时,仍能生成高保真的视觉内容。

关键设计:在设计上,DiLA采用了特定的损失函数以平衡内容与结构的学习,同时在网络结构上实现了模块化设计,使得模型在训练过程中能够灵活调整各个部分的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiLA在视频生成质量、动作转移和视觉规划等方面的实验结果显示出显著的性能提升。具体而言,DiLA在视频生成任务中相较于基线方法提高了生成质量,且在动作转移和流形可解释性方面也表现优异,进一步验证了其有效性。

🎯 应用场景

DiLA的研究成果在多个领域具有潜在应用价值,包括自动视频生成、智能机器人视觉理解和虚拟现实等。通过提高视频生成的质量与效率,DiLA能够推动相关技术的发展,提升用户体验,并在智能系统中实现更高水平的自主决策能力。

📄 摘要(原文)

Latent Action Models (LAMs) enable the learning of world models from unlabeled video by inferring abstract actions between consecutive frames. However, LAMs face a fundamental trade-off between action abstraction and generation fidelity. Existing methods typically circumvent this issue by using two-stage training with pre-trained world models or by limiting predictions to optical flow. In this paper, we introduce DiLA, a novel Disentangled Latent Action world model that aims to resolve this trade-off via content-structure disentanglement. Our key insight is that disentanglement and latent action learning are co-evolving: the predictive bottleneck inherent in latent action learning serves as a driving force for disentanglement, compelling the model to distill spatial layouts into the structure pathway while offloading visual details to a separate content pathway for generation. This synergy yields a continuous, semantically structured latent action space without compromising generative quality. DiLA achieves superior results in video generation quality, action transfer, visual planning, and manifold interpretability. These findings establish DiLA as a unified framework that simultaneously achieves high-level action abstraction and high-fidelity generation, advancing the frontier of self-supervised world model learning.