NavThinker: Action-Conditioned World Models for Coupled Prediction and Planning in Social Navigation

作者: Tianshuai Hu, Zeying Gong, Lingdong Kong, XiaoDong Mei, Yiyi Ding, Qi Zeng, Ao Liang, Rong Li, Yangyi Zhong, Junwei Liang

分类: cs.RO

发布日期: 2026-03-16

🔗 代码/项目: GITHUB

💡 一句话要点

NavThinker：基于动作条件世界模型的社交导航耦合预测与规划

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 社交导航 世界模型 强化学习 动作条件预测 人机交互

📋 核心要点

现有社交导航方法难以应对人机交互的复杂性，缺乏对未来场景演化的有效预测和规划能力。
NavThinker通过构建动作条件世界模型，预测未来场景几何和人类运动，从而实现更具前瞻性的导航策略。
实验表明，NavThinker在多个数据集上取得了领先的导航成功率，并成功部署于真实机器人平台，验证了其有效性。

📝 摘要（中文）

社交导航要求机器人在动态的人类环境中安全行动。有效的行为需要提前思考：推理场景和行人如何在不同的机器人动作下演变，而不是仅仅对当前的观察做出反应。这带来了一个耦合的预测-规划挑战，其中机器人动作和人类运动相互影响。为了解决这个挑战，我们提出了NavThinker，一个具有前瞻性的框架，它将动作条件世界模型与在线强化学习相结合。世界模型在Depth Anything V2补丁特征空间中运行，并执行未来场景几何和人类运动的自回归预测；多头解码器然后生成未来的深度图和人类轨迹，产生一个与可通行性和交互风险对齐的未来感知状态。至关重要的是，我们使用DD-PPO训练策略，同时通过以下方式注入世界模型的前瞻性信号：（i）融合到当前观察嵌入中的动作条件未来特征，以及（ii）来自预测的人类轨迹的社交奖励塑造。在单机器人和多机器人Social-HM3D上的实验表明，导航成功率达到了最先进水平，并且零样本迁移到Social-MP3D以及在Unitree Go2上的真实世界部署，验证了泛化能力和实际适用性。

🔬 方法详解

问题定义：社交导航任务要求机器人在动态人群中安全有效地移动，现有方法通常依赖于对当前环境的直接感知和反应，缺乏对未来人机交互的预测和规划能力。这种局限性导致机器人难以应对复杂场景，例如预测行人的行为并提前做出规避动作。因此，如何让机器人具备“思考未来”的能力，是解决社交导航问题的关键挑战。

核心思路：NavThinker的核心思路是构建一个动作条件世界模型，该模型能够根据机器人的动作预测未来场景的演化，包括场景几何的变化和行人的运动轨迹。通过将未来信息融入到强化学习策略中，机器人可以更好地理解人机交互的长期影响，从而做出更明智的导航决策。这种前瞻性的规划能力使得机器人能够更安全、更高效地在人群中移动。

技术框架：NavThinker框架主要包含两个核心模块：动作条件世界模型和强化学习策略。世界模型接收当前状态和机器人动作作为输入，预测未来一段时间内的场景深度图和行人轨迹。强化学习策略则利用当前状态和世界模型预测的未来信息，学习最优的导航策略。具体流程如下：首先，世界模型根据当前状态和动作预测未来状态；然后，将预测的未来特征融入到当前状态的嵌入中；最后，使用DD-PPO算法训练强化学习策略，并利用预测的行人轨迹进行社交奖励塑造。

关键创新：NavThinker的关键创新在于将动作条件世界模型与强化学习相结合，实现了耦合的预测和规划。与传统的基于规则或基于学习的导航方法相比，NavThinker能够更好地理解人机交互的动态性，并做出更具前瞻性的决策。此外，NavThinker还采用了Depth Anything V2特征空间，提高了世界模型的预测精度。

关键设计：NavThinker的关键设计包括：1) 使用Depth Anything V2的patch特征作为世界模型的输入，以提高场景理解能力；2) 使用多头解码器分别预测未来深度图和行人轨迹；3) 通过将未来特征融入当前状态嵌入和社交奖励塑造，将世界模型的预测信息有效地传递给强化学习策略；4) 使用DD-PPO算法进行策略训练，以提高训练效率和稳定性。

🖼️ 关键图片

📊 实验亮点

NavThinker在Social-HM3D数据集上取得了最先进的导航成功率，并实现了零样本迁移到Social-MP3D数据集。此外，NavThinker还在Unitree Go2机器人上进行了真实世界部署，验证了其在实际场景中的有效性。这些实验结果表明，NavThinker具有良好的泛化能力和实用价值。

🎯 应用场景

NavThinker的研究成果可广泛应用于各种需要与人类交互的机器人应用场景，例如：商场导览机器人、医院配送机器人、家庭服务机器人等。通过提升机器人在复杂人群环境中的导航能力，可以提高服务效率、降低安全风险，并改善用户体验。此外，该研究对于开发更智能、更自主的机器人系统具有重要的理论价值和实践意义。

📄 摘要（原文）

Social navigation requires robots to act safely in dynamic human environments. Effective behavior demands thinking ahead: reasoning about how the scene and pedestrians evolve under different robot actions rather than reacting to current observations alone. This creates a coupled prediction-planning challenge, where robot actions and human motion mutually influence each other. To address this challenge, we propose NavThinker, a future-aware framework that couples an action-conditioned world model with on-policy reinforcement learning. The world model operates in the Depth Anything V2 patch feature space and performs autoregressive prediction of future scene geometry and human motion; multi-head decoders then produce future depth maps and human trajectories, yielding a future-aware state aligned with traversability and interaction risk. Crucially, we train the policy with DD-PPO while injecting world-model think-ahead signals via: (i) action-conditioned future features fused into the current observation embedding and (ii) social reward shaping from predicted human trajectories. Experiments on single- and multi-robot Social-HM3D show state-of-the-art navigation success, with zero-shot transfer to Social-MP3D and real-world deployment on a Unitree Go2, validating generalization and practical applicability. Webpage: https://github.com/hutslib/NavThinker.

NavThinker: Action-Conditioned World Models for Coupled Prediction and Planning in Social Navigation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理