AR Forcing: Towards Long-Horizon Robot Navigation World Model
作者: Yifei Yang, Zehua Fan, Huan Li, Aoqi Wang, Lida Huang, Haibao Yu, Haiyan Liu, Xuanyao Mao, Jason Bao, Liang Xu, Bingchuan Sun, Yan Wang
分类: cs.RO
发布日期: 2026-05-29
💡 一句话要点
AR Forcing:面向长时程机器人导航的世界模型自回归训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人导航 世界模型 扩散模型 自回归训练 长时程预测
📋 核心要点
- 现有基于扩散的世界模型在训练和推理阶段存在分布偏移,导致长时程预测性能下降。
- AR Forcing通过将扩散损失融入自回归训练循环,使模型在训练时接触推理状态分布,从而缓解分布偏移问题。
- 实验表明,AR Forcing提高了长时程导航中生成图像的一致性和轨迹预测的准确性,增强了模型鲁棒性。
📝 摘要(中文)
基于扩散模型的机器人导航世界模型通常采用并行监督进行训练,而在路径规划期间采用自回归推理。这导致训练和推理之间存在分布偏移,从而降低了长时程预测的性能。我们提出了AR Forcing,一种自回归训练策略,它将标准扩散损失集成到自回归训练循环中。在每个步骤中,模型使用其自身的预测来更新上下文并优化单步噪声预测目标,从而在训练期间显式地将模型暴露于推理状态分布。我们的方法不需要额外的判别器或分布匹配损失,保留了原始扩散框架和采样器,并且易于集成。在多领域导航数据集(RECON、SCAND、HuRoN、TartanDrive)上的实验表明,与强大的基线相比,AR Forcing提高了长时程导航期间生成图像的一致性和预测轨迹的准确性,从而增强了模型在复杂已知和未知环境中的鲁棒性。我们将很快发布代码。
🔬 方法详解
问题定义:论文旨在解决机器人导航中,基于扩散模型的世界模型在长时程预测时性能下降的问题。现有方法通常采用并行监督训练,而推理时采用自回归方式,导致训练和推理阶段存在分布偏移,使得模型在长时程预测中不稳定。
核心思路:论文的核心思路是在训练阶段引入自回归机制,使模型在训练过程中能够接触到与推理阶段相似的状态分布。通过让模型使用自身的预测结果来更新上下文,并优化单步噪声预测目标,从而显式地将模型暴露于推理状态分布,减小训练和推理之间的差异。
技术框架:AR Forcing方法的核心在于将标准的扩散模型损失函数融入到自回归训练循环中。具体而言,在每个训练步骤中,模型首先基于当前状态进行预测,然后将预测结果作为下一步的输入,并计算预测结果与真实值之间的扩散损失。通过这种方式,模型在训练过程中不断地根据自身的预测进行调整,从而更好地适应推理阶段的自回归特性。
关键创新:AR Forcing的关键创新在于提出了一种简单有效的自回归训练策略,无需引入额外的判别器或分布匹配损失,即可显著提升长时程预测的性能。该方法保留了原始扩散模型的框架和采样器,易于集成到现有的基于扩散模型的世界模型中。
关键设计:AR Forcing的关键设计在于将扩散模型的损失函数与自回归训练循环相结合。具体实现上,模型在每个时间步使用自身的预测结果更新上下文,并优化单步噪声预测目标。这种设计使得模型在训练过程中能够学习到如何根据自身的预测进行调整,从而更好地适应推理阶段的自回归特性。此外,该方法没有引入额外的超参数,易于实现和调试。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AR Forcing在多个导航数据集(RECON、SCAND、HuRoN、TartanDrive)上显著提高了长时程导航中生成图像的一致性和预测轨迹的准确性。与现有基线方法相比,AR Forcing在复杂已知和未知环境中表现出更强的鲁棒性。具体性能提升数据将在代码发布后公开。
🎯 应用场景
该研究成果可应用于各种机器人导航任务,例如自动驾驶、无人机导航、服务机器人等。通过提高长时程预测的准确性和鲁棒性,可以使机器人在复杂环境中更好地规划路径并执行任务,从而提高机器人的自主性和适应性。此外,该方法还可以推广到其他需要长时程预测的领域,例如视频预测、语音合成等。
📄 摘要(原文)
The diffusion based robot navigation world models are typically trained using parallel supervision, while autoregressive inference is employed during path planning. This results in a distribution shift between training and inference, which destabilizes the performance over long-horizon prediction. We propose AR Forcing, an autoregressive training strategy, which integrates the standard diffusion loss into the autoregressive training loop. At each step, the model uses its own predictions to update the context and optimize the single step noise prediction objective, thereby explicitly exposing the model to the inference state distribution during training. Our method does not require additional discriminators or distribution-matching losses, retains the original diffusion framework and sampler, and is easy to integrate. Experiments on multi-domain navigation datasets (RECON, SCAND, HuRoN, TartanDrive) show that compared with strong baselines, AR Forcing improved the consistency of generated images during long-horizon navigation and the accuracy of predicted trajectories, enhancing robustness of the model in complex known and unknown environments. We will release the code soon.