SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models

📄 arXiv: 2509.15536v2 📥 PDF

作者: Sen Wang, Jingyi Tian, Le Wang, Zhimin Liao, Jiayi Li, Huaiyi Dong, Kun Xia, Sanping Zhou, Wei Tang, Hua Gang

分类: cs.CV, cs.RO

发布日期: 2025-09-19 (更新: 2025-10-21)

备注: 22 pages,15 figures


💡 一句话要点

SAMPO:基于运动提示的分尺度自回归生成世界模型,提升视频预测质量与推理效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 世界模型 视频预测 自回归模型 运动建模 机器人控制

📋 核心要点

  1. 现有自回归世界模型在空间结构保持、解码效率和运动建模方面存在挑战,导致视觉连贯性预测效果不佳。
  2. SAMPO通过结合视觉自回归和因果建模,并引入运动提示模块,提升了时间一致性、rollout效率和动态场景理解能力。
  3. 实验表明,SAMPO在视频预测和模型控制任务上表现出色,推理速度提升显著,并具备良好的泛化能力和扩展性。

📝 摘要(中文)

本文提出了一种名为SAMPO(基于运动提示的分尺度自回归)的混合框架,用于解决现有自回归世界模型在视觉连贯性预测、解码效率和运动建模方面的不足。SAMPO结合了用于帧内生成的视觉自回归建模和用于下一帧生成的因果建模。它集成了时间因果解码与双向空间注意力,从而保持空间局部性并支持每个尺度内的并行解码,显著提高了时间一致性和rollout效率。此外,SAMPO设计了一种非对称多尺度tokenizer,保留了观测帧中的空间细节,并提取了未来帧的紧凑动态表示,优化了内存使用和模型性能。SAMPO还引入了轨迹感知运动提示模块,注入了关于对象和机器人轨迹的时空线索,从而将注意力集中在动态区域,并改善了时间一致性和物理真实感。实验表明,SAMPO在动作条件视频预测和基于模型的控制方面取得了有竞争力的性能,并在提高生成质量的同时,实现了4.4倍的推理速度提升。SAMPO还展现了零样本泛化能力和良好的扩展性。

🔬 方法详解

问题定义:现有的自回归世界模型在生成视频时,难以保持视觉上的连贯性,尤其是在长时间的预测中。这主要是由于空间结构的破坏、解码效率低下以及对运动建模的不足。这些问题限制了世界模型在规划、控制和长时程决策等任务中的应用。

核心思路:SAMPO的核心思路是将视觉自回归建模与因果建模相结合,并引入运动提示模块。视觉自回归建模负责帧内图像的生成,保持空间细节;因果建模负责下一帧的生成,保证时间上的连贯性。运动提示模块则通过注入时空线索,引导模型关注动态区域,从而提升运动建模能力。

技术框架:SAMPO的整体框架包含以下几个主要模块:1) 非对称多尺度Tokenizer:用于提取输入视频帧的特征表示,对观测帧保留更多空间细节,对未来帧提取更紧凑的动态表示。2) 时间因果解码器:结合双向空间注意力,用于生成下一帧的特征表示。3) 轨迹感知运动提示模块:注入对象和机器人轨迹的时空线索,引导模型关注动态区域。4) 视觉自回归解码器:用于将特征表示解码为最终的视频帧。

关键创新:SAMPO的关键创新在于以下几个方面:1) 混合建模方式:结合视觉自回归和因果建模,兼顾了空间细节和时间连贯性。2) 非对称多尺度Tokenizer:优化了内存使用和模型性能。3) 轨迹感知运动提示模块:提升了运动建模能力和物理真实感。4) 时间因果解码器与双向空间注意力:提升了时间一致性和rollout效率。

关键设计:SAMPO的关键设计包括:1) 非对称Tokenizer的尺度设置,需要根据具体任务进行调整。2) 运动提示模块中,轨迹信息的编码方式和注入方式。3) 时间因果解码器中,双向空间注意力的具体实现方式。4) 损失函数的设计,需要平衡空间细节、时间连贯性和运动建模的准确性。具体参数设置和网络结构细节在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAMPO在动作条件视频预测任务上取得了显著的性能提升,与现有方法相比,推理速度提高了4.4倍,同时保持了较高的生成质量。此外,SAMPO还展现了良好的零样本泛化能力,能够泛化到未见过的任务中。消融实验验证了各个模块的有效性,证明了SAMPO设计的合理性。

🎯 应用场景

SAMPO具有广泛的应用前景,包括机器人控制、自动驾驶、游戏AI等领域。它可以帮助智能体在虚拟环境中进行规划和决策,从而提高其在真实世界中的表现。例如,在机器人控制中,SAMPO可以用于预测机器人的运动轨迹,从而实现更精确的控制。在自动驾驶中,SAMPO可以用于预测周围车辆和行人的行为,从而提高安全性。

📄 摘要(原文)

World models allow agents to simulate the consequences of actions in imagined environments for planning, control, and long-horizon decision-making. However, existing autoregressive world models struggle with visually coherent predictions due to disrupted spatial structure, inefficient decoding, and inadequate motion modeling. In response, we propose \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO}), a hybrid framework that combines visual autoregressive modeling for intra-frame generation with causal modeling for next-frame generation. Specifically, SAMPO integrates temporal causal decoding with bidirectional spatial attention, which preserves spatial locality and supports parallel decoding within each scale. This design significantly enhances both temporal consistency and rollout efficiency. To further improve dynamic scene understanding, we devise an asymmetric multi-scale tokenizer that preserves spatial details in observed frames and extracts compact dynamic representations for future frames, optimizing both memory usage and model performance. Additionally, we introduce a trajectory-aware motion prompt module that injects spatiotemporal cues about object and robot trajectories, focusing attention on dynamic regions and improving temporal consistency and physical realism. Extensive experiments show that SAMPO achieves competitive performance in action-conditioned video prediction and model-based control, improving generation quality with 4.4$\times$ faster inference. We also evaluate SAMPO's zero-shot generalization and scaling behavior, demonstrating its ability to generalize to unseen tasks and benefit from larger model sizes.