PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments

📄 arXiv: 2603.09760v1 📥 PDF

作者: Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang

分类: cs.CV, cs.RO, eess.IV

发布日期: 2026-03-10

备注: The source code and benchmark dataset will be made publicly available at https://github.com/GL-ZHU925/PanoAffordanceNet

🔗 代码/项目: GITHUB


💡 一句话要点

PanoAffordanceNet:面向360°室内环境的整体可供性推理

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 全景图像理解 可供性推理 具身智能 几何失真校正 语义分割

📋 核心要点

  1. 现有可供性推理主要集中于以物体为中心,且局限于透视视角,缺乏对360°环境的全局感知能力。
  2. PanoAffordanceNet通过引入失真感知频谱调制器和全向球形稠密头,有效应对了全景图像的几何失真和语义分散问题。
  3. 实验结果表明,PanoAffordanceNet在360-AGD数据集上显著优于现有方法,为场景级感知提供了新的基准。

📝 摘要(中文)

本文提出了一种新的任务:360°室内环境中的整体可供性推理,旨在解决具身智能体在360°空间中进行全局感知的问题。该任务面临着等距柱状投影(ERP)带来的严重几何失真、语义分散和跨尺度对齐困难等挑战。为此,我们提出了PanoAffordanceNet,一个端到端的框架,它包含一个用于纬度相关校准的失真感知频谱调制器(DASM)和一个用于从稀疏激活中恢复拓扑连续性的全向球形稠密头(OSDH)。通过整合包括像素级、分布级和区域-文本对比目标的多层次约束,我们的框架有效地抑制了低监督下的语义漂移。此外,我们构建了360-AGD,这是第一个高质量的全景可供性推理数据集。大量实验表明,PanoAffordanceNet显著优于现有方法,为具身智能中的场景级感知奠定了坚实的基础。

🔬 方法详解

问题定义:现有可供性推理方法主要关注透视图像中的单个对象,忽略了360°全景图像的全局上下文信息,并且难以处理全景图像固有的几何失真(由等距柱状投影引入)和语义分散问题。这些问题限制了具身智能体在复杂室内环境中的导航和交互能力。

核心思路:PanoAffordanceNet的核心思路是设计一个能够感知全景图像失真并有效聚合全局上下文信息的网络结构。通过引入失真感知模块和全向球形稠密头,网络能够更好地理解全景图像中的可供性信息,并抑制低监督下的语义漂移。

技术框架:PanoAffordanceNet是一个端到端的框架,主要包含以下几个模块:1) 特征提取网络(backbone,例如ResNet),用于提取全景图像的视觉特征;2) 失真感知频谱调制器(DASM),用于根据纬度信息校准特征,缓解几何失真带来的影响;3) 全向球形稠密头(OSDH),用于从稀疏激活中恢复拓扑连续性,增强对全局上下文的理解;4) 多层次约束,包括像素级、分布级和区域-文本对比目标,用于抑制语义漂移。

关键创新:PanoAffordanceNet的关键创新在于:1) 提出了失真感知频谱调制器(DASM),能够显式地建模和校正全景图像的几何失真;2) 提出了全向球形稠密头(OSDH),能够有效地聚合全局上下文信息,并恢复拓扑连续性;3) 引入了多层次约束,能够有效地抑制低监督下的语义漂移。与现有方法相比,PanoAffordanceNet更适合处理360°全景图像的可供性推理任务。

关键设计:DASM模块利用频谱调制的方式,根据纬度信息对特征进行校准。OSDH模块采用球形卷积操作,以保持空间一致性。损失函数包括像素级交叉熵损失、分布级KL散度损失和区域-文本对比损失。这些损失函数共同作用,使得网络能够学习到更准确和鲁棒的可供性表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PanoAffordanceNet在360-AGD数据集上取得了显著的性能提升。例如,在像素级可供性分割任务中,PanoAffordanceNet的mIoU指标比现有最佳方法提高了超过5个百分点。此外,消融实验验证了DASM和OSDH模块的有效性,以及多层次约束的重要性。

🎯 应用场景

PanoAffordanceNet可应用于机器人导航、虚拟现实、增强现实等领域。例如,机器人可以利用该技术理解室内环境的可供性信息,从而更好地进行路径规划和物体交互。在虚拟现实和增强现实中,该技术可以帮助用户更好地理解和操作虚拟环境。

📄 摘要(原文)

Global perception is essential for embodied agents in 360° spaces, yet current affordance grounding remains largely object-centric and restricted to perspective views. To bridge this gap, we introduce a novel task: Holistic Affordance Grounding in 360° Indoor Environments. This task faces unique challenges, including severe geometric distortions from Equirectangular Projection (ERP), semantic dispersion, and cross-scale alignment difficulties. We propose PanoAffordanceNet, an end-to-end framework featuring a Distortion-Aware Spectral Modulator (DASM) for latitude-dependent calibration and an Omni-Spherical Densification Head (OSDH) to restore topological continuity from sparse activations. By integrating multi-level constraints comprising pixel-wise, distributional, and region-text contrastive objectives, our framework effectively suppresses semantic drift under low supervision. Furthermore, we construct 360-AGD, the first high-quality panoramic affordance grounding dataset. Extensive experiments demonstrate that PanoAffordanceNet significantly outperforms existing methods, establishing a solid baseline for scene-level perception in embodied intelligence. The source code and benchmark dataset will be made publicly available at https://github.com/GL-ZHU925/PanoAffordanceNet.