Panoramic Affordance Prediction

📄 arXiv: 2603.15558v1 📥 PDF

作者: Zixin Zhang, Chenfei Liao, Hongfei Zhang, Harold Haodong Chen, Kanghao Chen, Zichen Wen, Litao Guo, Bin Ren, Xu Zheng, Yinchuan Li, Xuming Hu, Nicu Sebe, Ying-Cong Chen

分类: cs.CV, cs.RO

发布日期: 2026-03-16


💡 一句话要点

提出PAP框架,解决全景图像下可供性预测难题,并构建大规模PAP-12K数据集。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景图像 可供性预测 具身智能 视觉路由 自适应注视

📋 核心要点

  1. 现有可供性预测方法依赖针孔相机模型,视野受限,难以捕捉全局环境信息,限制了具身智能的应用。
  2. 论文提出PAP框架,模拟人类中央凹视觉系统,通过递归视觉路由、自适应注视机制和级联 grounding 流程,实现精确的可供性预测。
  3. 实验表明,PAP框架在PAP-12K数据集上显著优于现有方法,验证了全景感知在可供性预测中的潜力。

📝 摘要(中文)

可供性预测是具身智能中感知与行动的关键桥梁。现有研究局限于针孔相机模型,视野狭窄且观测分散,常缺失整体环境信息。本文首次探索全景可供性预测,利用360度图像捕捉全局空间关系和整体场景理解。为此,我们构建了大规模基准数据集PAP-12K,包含超过1000张超高分辨率(12k)全景图像,以及超过12k个精心标注的QA对和可供性掩码。此外,我们提出了PAP,一个受人类中央凹视觉系统启发的免训练、由粗到精的流程,以应对全景图像中固有的超高分辨率和严重失真。PAP采用基于网格提示的递归视觉路由来逐步定位目标,应用自适应注视机制来校正局部几何失真,并利用级联 grounding 流程来提取精确的实例级掩码。在PAP-12K上的实验结果表明,为标准透视图像设计的现有可供性预测方法性能严重下降,并因全景视觉的独特挑战而失败。相比之下,PAP框架有效地克服了这些障碍,显著优于最先进的基线,并突出了全景感知在鲁棒具身智能方面的巨大潜力。

🔬 方法详解

问题定义:论文旨在解决全景图像下的可供性预测问题。现有方法主要针对传统透视图像设计,无法有效处理全景图像带来的超高分辨率、严重几何失真以及缺乏全局上下文信息等挑战。这些问题导致现有方法在全景图像上性能显著下降,难以满足具身智能应用的需求。

核心思路:论文的核心思路是模仿人类的中央凹视觉系统,采用由粗到精的策略来处理全景图像。首先,通过递归视觉路由快速定位潜在目标区域;然后,利用自适应注视机制校正局部几何失真;最后,通过级联 grounding 流程提取精确的实例级可供性掩码。这种策略能够有效应对全景图像的挑战,提高可供性预测的准确性和效率。

技术框架:PAP框架包含三个主要模块:1) 递归视觉路由 (Recursive Visual Routing):利用网格提示 (Grid Prompting) 逐步缩小搜索范围,快速定位潜在目标区域。2) 自适应注视机制 (Adaptive Gaze Mechanism):根据目标区域的几何失真程度,自适应地调整注视方向,校正局部几何失真。3) 级联 Grounding 流程 (Cascaded Grounding Pipeline):利用级联的 grounding 模型,逐步提取精确的实例级可供性掩码。整个流程是一个由粗到精的过程,能够有效应对全景图像的挑战。

关键创新:论文的关键创新在于提出了一个免训练的、由粗到精的全景可供性预测框架PAP。该框架模拟人类中央凹视觉系统,能够有效应对全景图像的超高分辨率和严重几何失真。与现有方法相比,PAP框架不需要大量的训练数据,并且能够更好地利用全局上下文信息,从而提高可供性预测的准确性和鲁棒性。

关键设计:在递归视觉路由模块中,论文采用了网格提示策略,将全景图像划分为多个网格,并逐步缩小搜索范围。在自适应注视机制中,论文设计了一种自适应的注视方向调整算法,根据目标区域的几何失真程度,动态调整注视方向。在级联 grounding 流程中,论文采用了多个 grounding 模型,逐步提取精确的实例级可供性掩码。这些关键设计共同保证了PAP框架的有效性。

📊 实验亮点

实验结果表明,PAP框架在PAP-12K数据集上显著优于现有方法。具体来说,PAP框架在可供性预测的准确率和召回率方面均取得了显著提升,超过了最先进的基线方法。这验证了PAP框架在全景可供性预测方面的有效性,并突出了全景感知在具身智能方面的巨大潜力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过全景可供性预测,机器人可以更好地理解周围环境,从而做出更合理的决策和行动。例如,机器人可以利用全景图像识别出可抓取的物体、可行走的区域等,从而实现更智能的导航和操作。此外,该研究还可以用于构建更逼真的虚拟现实环境,提升用户体验。

📄 摘要(原文)

Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.