The DAWN of World-Action Interactive Models
作者: Hongbo Lu, Liang Yao, Chenghao He, Haoyu Wang, Xiang Gu, Xianfei Li, Wenlong Liao, Tao He, Pai Peng
分类: cs.CV
发布日期: 2026-05-12
💡 一句话要点
提出WAIM以解决世界预测与动作生成的相互依赖问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界动作模型 自动驾驶 交互式生成 潜在空间 动作去噪 场景预测 长时间轨迹生成
📋 核心要点
- 现有的世界动作模型(WAM)往往将世界预测和动作生成视为独立的过程,缺乏必要的相互依赖性,导致性能不足。
- 论文提出了世界-动作交互模型(WAIM),通过DAWN模型在潜在空间中耦合世界预测与动作去噪,实现了二者的递归优化。
- 实验结果显示,DAWN在多个自动驾驶基准测试中取得了优异的规划性能和安全性,表明其在长时间轨迹生成中的有效性。
📝 摘要(中文)
论文提出了一种新的世界-动作交互模型(WAIM),以解决现有世界动作模型(WAM)在世界预测和动作生成之间缺乏相互依赖的问题。通过引入DAWN模型,作者实现了在语义潜在空间中进行世界预测与动作去噪的耦合,允许在推理过程中相互反馈和递归优化。实验结果表明,DAWN在多个自动驾驶基准测试中表现出色,展现了其在复杂交互场景中的长时间轨迹生成能力。
🔬 方法详解
问题定义:论文要解决的问题是现有的世界动作模型(WAM)未能有效处理世界预测与动作生成之间的相互依赖性,导致在复杂场景中的表现不佳。
核心思路:论文的核心思路是提出世界-动作交互模型(WAIM),通过DAWN模型在潜在语义空间中耦合世界预测与动作去噪,使得二者能够在推理过程中相互反馈和优化。
技术框架:DAWN模型由两个主要模块组成:世界预测器和世界条件动作去噪器。世界预测器生成对未来场景的预测,而动作去噪器则在此基础上优化动作选择。
关键创新:最重要的技术创新在于引入了交互式的世界-动作生成机制,使得世界预测与动作生成能够在推理过程中相互影响,从而提升了模型的整体性能。
关键设计:模型在训练过程中采用了短期潜在展开的策略,而不是完全展开未来场景,设计了适合的损失函数以平衡世界预测与动作去噪的效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DAWN在多个自动驾驶基准测试中表现优异,相较于现有基线模型,其规划性能提升了显著的百分比,并在安全性相关指标上也取得了良好的结果,展示了其在复杂交互场景中的有效性。
🎯 应用场景
该研究的潜在应用领域主要集中在自动驾驶、机器人导航和智能交通系统等领域。通过实现更加精确的世界预测与动作生成,DAWN模型能够提升自动驾驶系统的安全性和效率,具有重要的实际价值和未来影响。
📄 摘要(原文)
A plausible scene evolution depends on the maneuver being considered, while a good maneuver depends on how the scene may evolve. Existing World Action Models (WAMs) largely miss this reciprocity, treating world prediction and action generation as either isolated parallel branches or rigid predict-then-plan pipelines. We formalize this perspective as World-Action Interactive Models (WAIMs), and instantiate it in autonomous driving with \textbf{DAWN} (\textbf{D}enoising \textbf{A}ctions and \textbf{W}orld i\textbf{N}teractive model), a simple yet strong latent generative baseline. DAWN operates in a compact semantic latent space and couples a \emph{World Predictor} with a \emph{World-Conditioned Action Denoiser}: the predicted world hypothesis conditions action denoising, while the denoised action hypothesis is fed back to update the world prediction, so that both are recursively refined during inference. Rather than eliminating test-time world evolution altogether or rolling out the full future in pixel space, DAWN performs a short explicit latent rollout that is sufficient to support long-horizon trajectory generation in complex interactive scenes. Experiments show that DAWN achieves strong planning performance and favorable safety-related results across multiple autonomous driving benchmarks. More broadly, our results suggest that interactive world-action generation is a principled path toward truly actionable world models.