NavThinker: Action-Conditioned World Models for Coupled Prediction and Planning in Social Navigation

📄 arXiv: 2603.15359v1 📥 PDF

作者: Tianshuai Hu, Zeying Gong, Lingdong Kong, XiaoDong Mei, Yiyi Ding, Qi Zeng, Ao Liang, Rong Li, Yangyi Zhong, Junwei Liang

分类: cs.RO

发布日期: 2026-03-16

🔗 代码/项目: GITHUB


💡 一句话要点

NavThinker:基于动作条件世界模型的社交导航耦合预测与规划

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交导航 世界模型 强化学习 动作条件预测 人机交互

📋 核心要点

  1. 现有社交导航方法难以应对人机交互的复杂性,缺乏对未来场景演化的有效预测和规划能力。
  2. NavThinker通过构建动作条件世界模型,预测未来场景几何和人类运动,从而实现更具前瞻性的导航策略。
  3. 实验表明,NavThinker在多个数据集上取得了领先的导航成功率,并成功部署于真实机器人平台,验证了其有效性。

📝 摘要(中文)

社交导航要求机器人在动态的人类环境中安全行动。有效的行为需要提前思考:推理场景和行人如何在不同的机器人动作下演变,而不是仅仅对当前的观察做出反应。这带来了一个耦合的预测-规划挑战,其中机器人动作和人类运动相互影响。为了解决这个挑战,我们提出了NavThinker,一个具有前瞻性的框架,它将动作条件世界模型与在线强化学习相结合。世界模型在Depth Anything V2补丁特征空间中运行,并执行未来场景几何和人类运动的自回归预测;多头解码器然后生成未来的深度图和人类轨迹,产生一个与可通行性和交互风险对齐的未来感知状态。至关重要的是,我们使用DD-PPO训练策略,同时通过以下方式注入世界模型的前瞻性信号:(i)融合到当前观察嵌入中的动作条件未来特征,以及(ii)来自预测的人类轨迹的社交奖励塑造。在单机器人和多机器人Social-HM3D上的实验表明,导航成功率达到了最先进水平,并且零样本迁移到Social-MP3D以及在Unitree Go2上的真实世界部署,验证了泛化能力和实际适用性。

🔬 方法详解

问题定义:社交导航任务要求机器人在动态人群中安全有效地移动,现有方法通常依赖于对当前环境的直接感知和反应,缺乏对未来人机交互的预测和规划能力。这种局限性导致机器人难以应对复杂场景,例如预测行人的行为并提前做出规避动作。因此,如何让机器人具备“思考未来”的能力,是解决社交导航问题的关键挑战。

核心思路:NavThinker的核心思路是构建一个动作条件世界模型,该模型能够根据机器人的动作预测未来场景的演化,包括场景几何的变化和行人的运动轨迹。通过将未来信息融入到强化学习策略中,机器人可以更好地理解人机交互的长期影响,从而做出更明智的导航决策。这种前瞻性的规划能力使得机器人能够更安全、更高效地在人群中移动。

技术框架:NavThinker框架主要包含两个核心模块:动作条件世界模型和强化学习策略。世界模型接收当前状态和机器人动作作为输入,预测未来一段时间内的场景深度图和行人轨迹。强化学习策略则利用当前状态和世界模型预测的未来信息,学习最优的导航策略。具体流程如下:首先,世界模型根据当前状态和动作预测未来状态;然后,将预测的未来特征融入到当前状态的嵌入中;最后,使用DD-PPO算法训练强化学习策略,并利用预测的行人轨迹进行社交奖励塑造。

关键创新:NavThinker的关键创新在于将动作条件世界模型与强化学习相结合,实现了耦合的预测和规划。与传统的基于规则或基于学习的导航方法相比,NavThinker能够更好地理解人机交互的动态性,并做出更具前瞻性的决策。此外,NavThinker还采用了Depth Anything V2特征空间,提高了世界模型的预测精度。

关键设计:NavThinker的关键设计包括:1) 使用Depth Anything V2的patch特征作为世界模型的输入,以提高场景理解能力;2) 使用多头解码器分别预测未来深度图和行人轨迹;3) 通过将未来特征融入当前状态嵌入和社交奖励塑造,将世界模型的预测信息有效地传递给强化学习策略;4) 使用DD-PPO算法进行策略训练,以提高训练效率和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NavThinker在Social-HM3D数据集上取得了最先进的导航成功率,并实现了零样本迁移到Social-MP3D数据集。此外,NavThinker还在Unitree Go2机器人上进行了真实世界部署,验证了其在实际场景中的有效性。这些实验结果表明,NavThinker具有良好的泛化能力和实用价值。

🎯 应用场景

NavThinker的研究成果可广泛应用于各种需要与人类交互的机器人应用场景,例如:商场导览机器人、医院配送机器人、家庭服务机器人等。通过提升机器人在复杂人群环境中的导航能力,可以提高服务效率、降低安全风险,并改善用户体验。此外,该研究对于开发更智能、更自主的机器人系统具有重要的理论价值和实践意义。

📄 摘要(原文)

Social navigation requires robots to act safely in dynamic human environments. Effective behavior demands thinking ahead: reasoning about how the scene and pedestrians evolve under different robot actions rather than reacting to current observations alone. This creates a coupled prediction-planning challenge, where robot actions and human motion mutually influence each other. To address this challenge, we propose NavThinker, a future-aware framework that couples an action-conditioned world model with on-policy reinforcement learning. The world model operates in the Depth Anything V2 patch feature space and performs autoregressive prediction of future scene geometry and human motion; multi-head decoders then produce future depth maps and human trajectories, yielding a future-aware state aligned with traversability and interaction risk. Crucially, we train the policy with DD-PPO while injecting world-model think-ahead signals via: (i) action-conditioned future features fused into the current observation embedding and (ii) social reward shaping from predicted human trajectories. Experiments on single- and multi-robot Social-HM3D show state-of-the-art navigation success, with zero-shot transfer to Social-MP3D and real-world deployment on a Unitree Go2, validating generalization and practical applicability. Webpage: https://github.com/hutslib/NavThinker.