FocusNav: Spatial Selective Attention with Waypoint Guidance for Humanoid Local Navigation

📄 arXiv: 2601.12790v1 📥 PDF

作者: Yang Zhang, Jianming Ma, Liyun Yan, Zhanxiang Cao, Yazhou Zhang, Haoyang Li, Yue Gao

分类: cs.RO

发布日期: 2026-01-19

备注: 12 pages, 11 figures


💡 一句话要点

FocusNav:基于航点引导的空间选择性注意力机制,用于人形机器人局部导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人形机器人 局部导航 空间注意力 航点引导 运动稳定性 自主导航 强化学习

📋 核心要点

  1. 人形机器人在非结构化和动态环境中进行鲁棒的局部导航面临挑战,需要在长距离导航目标和即时运动稳定性之间取得平衡。
  2. FocusNav通过航点引导的空间交叉注意力机制(WGSCA)和稳定性感知选择性门控(SASG)模块,自适应地调整感知范围,实现任务相关感知和稳定性优先。
  3. 在Unitree G1上的实验表明,FocusNav显著提高了在复杂环境中的导航成功率,在避障和运动稳定性方面优于现有方法。

📝 摘要(中文)

本文提出FocusNav,一个空间选择性注意力框架,能够基于导航意图和实时稳定性自适应地调整人形机器人的感知范围。FocusNav包含一个航点引导的空间交叉注意力(WGSCA)机制,该机制将环境特征的聚合锚定到一系列预测的无碰撞航点上,从而确保沿规划轨迹的任务相关感知。为了增强在复杂地形中的鲁棒性,稳定性感知选择性门控(SASG)模块在检测到不稳定性时,自主截断远端信息,迫使策略优先考虑即时的立足点安全。在Unitree G1人形机器人上的大量实验表明,FocusNav显著提高了在具有挑战性的场景中的导航成功率,在避障和运动稳定性方面均优于基线方法,从而在动态和复杂环境中实现了鲁棒的导航。

🔬 方法详解

问题定义:人形机器人在复杂动态环境中进行局部导航时,需要在关注长远目标的同时,保证运动的稳定性。现有方法往往难以兼顾这两点,容易发生碰撞或跌倒。因此,如何使机器人能够根据导航目标和自身状态,自适应地调整感知范围,是需要解决的关键问题。

核心思路:FocusNav的核心思路是利用空间选择性注意力机制,使机器人能够根据导航目标(通过航点表示)和自身稳定性状态,动态地调整对环境的感知。通过航点引导的空间交叉注意力(WGSCA)机制,聚焦于规划轨迹上的关键信息;通过稳定性感知选择性门控(SASG)模块,在检测到不稳定性时,优先关注近处的立足点安全。

技术框架:FocusNav框架主要包含两个核心模块:WGSCA和SASG。首先,WGSCA模块利用预测的无碰撞航点序列,对环境特征进行加权聚合,从而提取与导航任务相关的感知信息。然后,SASG模块根据机器人的稳定性状态,对WGSCA输出的特征进行选择性门控,抑制来自不稳定区域的信息,从而提高运动的安全性。最后,经过这两个模块处理后的特征被输入到导航策略中,用于控制机器人的运动。

关键创新:FocusNav的关键创新在于将航点引导和稳定性感知融入到空间选择性注意力机制中。WGSCA模块通过航点信息指导特征聚合,使机器人能够聚焦于任务相关的区域。SASG模块则根据稳定性状态动态调整感知范围,提高了在复杂地形中的鲁棒性。这种结合导航意图和自身状态的自适应感知方式,是与现有方法的本质区别。

关键设计:WGSCA模块使用交叉注意力机制,将环境特征与航点特征进行交互,从而学习到每个航点的重要性权重。SASG模块则使用一个神经网络来预测稳定性状态,并根据预测结果生成一个门控信号,用于抑制不稳定区域的特征。损失函数包括导航损失、碰撞损失和稳定性损失,用于训练整个框架。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FocusNav在Unitree G1人形机器人上显著提高了导航成功率。在具有挑战性的场景中,FocusNav的导航成功率比基线方法提高了15%-20%,并且在避障和运动稳定性方面均表现出更优的性能。这些结果验证了FocusNav在复杂环境中进行鲁棒导航的有效性。

🎯 应用场景

FocusNav技术可应用于各种人形机器人的自主导航任务中,尤其是在复杂、动态和非结构化的环境中,如家庭服务、物流配送、搜救等。该研究有助于提高人形机器人的自主性和适应性,使其能够更好地完成各种实际任务,具有重要的应用价值和广阔的发展前景。

📄 摘要(原文)

Robust local navigation in unstructured and dynamic environments remains a significant challenge for humanoid robots, requiring a delicate balance between long-range navigation targets and immediate motion stability. In this paper, we propose FocusNav, a spatial selective attention framework that adaptively modulates the robot's perceptual field based on navigational intent and real-time stability. FocusNav features a Waypoint-Guided Spatial Cross-Attention (WGSCA) mechanism that anchors environmental feature aggregation to a sequence of predicted collision-free waypoints, ensuring task-relevant perception along the planned trajectory. To enhance robustness in complex terrains, the Stability-Aware Selective Gating (SASG) module autonomously truncates distal information when detecting instability, compelling the policy to prioritize immediate foothold safety. Extensive experiments on the Unitree G1 humanoid robot demonstrate that FocusNav significantly improves navigation success rates in challenging scenarios, outperforming baselines in both collision avoidance and motion stability, achieving robust navigation in dynamic and complex environments.