AnyImageNav: Any-View Geometry for Precise Last-Meter Image-Goal Navigation
作者: Yijie Deng, Shuaihang Yuan, Yi Fang
分类: cs.RO, cs.CV
发布日期: 2026-04-07
💡 一句话要点
AnyImageNav:利用任意视角几何实现精确的末端图像目标导航
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像目标导航 末端导航 姿态估计 几何查询 三维重建
📋 核心要点
- 现有ImageNav方法定位精度不足,难以满足抓取等需要精确定位的下游任务。
- AnyImageNav将目标图像视为几何查询,通过语义到几何的级联实现精确的6自由度姿态恢复。
- 实验表明,AnyImageNav在Gibson和HM3D数据集上取得了SOTA导航成功率和姿态恢复精度。
📝 摘要(中文)
图像目标导航(ImageNav)的评估标准较为粗略,仅要求智能体停止在目标周围1米范围内,这对于寻找物体来说足够,但对于需要精确定位的下游任务(如抓取)则不足。我们提出了AnyImageNav,一个无需训练的系统,旨在推动ImageNav适应这种更严格的设定。核心思想是将目标图像视为几何查询:物体的任何照片、走廊或房间角落都可以通过密集的像素级对应关系注册到智能体的观测中,从而恢复精确的6自由度相机姿态。我们的方法通过语义到几何的级联实现这一点:语义相关性信号引导探索并充当邻近门,仅当当前视图与目标图像高度相关时才调用3D多视图基础模型;然后,该模型循环自验证其注册,以实现准确的姿态恢复。我们的方法在Gibson(93.1%)和HM3D(82.6%)上实现了最先进的导航成功率,并实现了先前方法无法提供的姿态恢复:在Gibson上位置误差为0.27米,航向误差为3.41度,在HM3D上位置误差为0.21米,航向误差为1.23度,比改进的基线提高了5-10倍。
🔬 方法详解
问题定义:ImageNav任务通常以智能体与目标物体1米内的距离作为成功标准,这对于一些需要精确定位的下游任务(如机器人抓取)来说是不够的。现有方法难以实现高精度的末端导航,无法提供精确的6自由度姿态估计。
核心思路:论文的核心思想是将目标图像视为一个几何查询,通过建立当前观测图像与目标图像之间的像素级对应关系,恢复智能体的精确6自由度姿态。这种方法避免了对环境进行显式的三维重建,而是直接利用图像信息进行定位。
技术框架:AnyImageNav系统包含以下主要模块:1) 语义相关性模块:用于评估当前视图与目标图像的语义相关性,引导智能体进行探索,并作为后续模块的触发条件。2) 3D多视图基础模型:仅当语义相关性较高时才被调用,用于建立当前视图与目标图像之间的像素级对应关系,并恢复智能体的6自由度姿态。3) 自验证模块:循环验证姿态恢复的准确性,确保最终姿态估计的精度。
关键创新:该方法最重要的创新在于将目标图像视为几何查询,并利用语义相关性引导3D多视图基础模型进行姿态恢复。这种方法避免了对环境进行显式的三维重建,而是直接利用图像信息进行定位,从而提高了定位精度和效率。此外,自验证模块进一步提高了姿态估计的可靠性。
关键设计:语义相关性模块的具体实现方式未知,但推测可能使用了预训练的视觉语言模型或语义分割模型。3D多视图基础模型的选择和参数设置对最终的姿态恢复精度至关重要,具体细节未知。自验证模块可能使用了重投影误差或一致性检查等方法来评估姿态估计的准确性。
🖼️ 关键图片
📊 实验亮点
AnyImageNav在Gibson和HM3D数据集上取得了显著的性能提升。在Gibson上,导航成功率达到93.1%,位置误差为0.27米,航向误差为3.41度。在HM3D上,导航成功率达到82.6%,位置误差为0.21米,航向误差为1.23度。相比于现有方法,位置和航向误差降低了5-10倍。
🎯 应用场景
AnyImageNav技术可应用于机器人抓取、精细化操作、增强现实等领域。例如,机器人可以利用该技术精确地定位目标物体,从而实现更可靠的抓取操作。在AR应用中,该技术可以实现更精确的虚拟物体与现实环境的对齐。
📄 摘要(原文)
Image Goal Navigation (ImageNav) is evaluated by a coarse success criterion, the agent must stop within 1m of the target, which is sufficient for finding objects but falls short for downstream tasks such as grasping that require precise positioning. We introduce AnyImageNav, a training-free system that pushes ImageNav toward this more demanding setting. Our key insight is that the goal image can be treated as a geometric query: any photo of an object, a hallway, or a room corner can be registered to the agent's observations via dense pixel-level correspondences, enabling recovery of the exact 6-DoF camera pose. Our method realizes this through a semantic-to-geometric cascade: a semantic relevance signal guides exploration and acts as a proximity gate, invoking a 3D multi-view foundation model only when the current view is highly relevant to the goal image; the model then self-certifies its registration in a loop for an accurate recovered pose. Our method sets state-of-the-art navigation success rates on Gibson (93.1%) and HM3D (82.6%), and achieves pose recovery that prior methods do not provide: a position error of 0.27m and heading error of 3.41 degrees on Gibson, and 0.21m / 1.23 degrees on HM3D, a 5-10x improvement over adapted baselines.