Closed-Loop Transfer for Weakly-supervised Affordance Grounding

📄 arXiv: 2510.17384v1 📥 PDF

作者: Jiajin Tang, Zhengxuan Wei, Ge Zheng, Sibei Yang

分类: cs.CV

发布日期: 2025-10-20

备注: Accepted at ICCV 2025


💡 一句话要点

提出LoopTrans闭环框架,用于弱监督可供性区域定位,提升复杂交互场景性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 弱监督学习 可供性区域定位 知识迁移 闭环框架 跨模态学习

📋 核心要点

  1. 现有弱监督可供性区域定位方法依赖单向知识迁移,在复杂交互场景中表现受限。
  2. LoopTrans构建闭环迁移框架,实现外部视角与自我中心视角知识的双向增强。
  3. 实验表明,LoopTrans在图像和视频数据集上均取得显著提升,尤其在遮挡场景下。

📝 摘要(中文)

本文提出了一种名为LoopTrans的闭环框架,用于解决弱监督可供性区域定位问题。该方法旨在模仿人类通过观察他人互动来学习与新物体交互的过程,即利用带有图像级别标注的以外部视角交互图像,学习定位自我中心图像中能够执行动作的物体区域。与以往单向知识迁移方法不同,LoopTrans不仅将知识从外部视角迁移到自我中心视角,还反向迁移以增强外部视角的知识提取。LoopTrans引入了统一的跨模态定位和去噪知识蒸馏等创新机制,弥合了以物体为中心的自我中心图像和以交互为中心的外部视角图像之间的领域差距,并增强了知识迁移。实验结果表明,LoopTrans在图像和视频基准测试中,各项指标均取得了持续的改进,甚至能够处理物体交互区域完全被人体遮挡的挑战性场景。

🔬 方法详解

问题定义:论文旨在解决弱监督可供性区域定位问题,即在只有图像级别标注的情况下,定位自我中心视角图像中与交互行为相关的物体区域。现有方法主要依赖于从外部视角图像到自我中心视角图像的单向知识迁移,这种方式忽略了自我中心视角图像中蕴含的丰富信息,并且在复杂交互场景下,例如物体被遮挡时,性能会显著下降。

核心思路:论文的核心思路是构建一个闭环的知识迁移框架,实现外部视角和自我中心视角之间的双向知识增强。通过将知识从外部视角迁移到自我中心视角,并反过来将自我中心视角的知识迁移回外部视角,可以有效地弥合两个视角之间的领域差距,并提升可供性区域定位的准确性。

技术框架:LoopTrans框架包含两个主要的知识迁移方向:从外部视角到自我中心视角的正向迁移,以及从自我中心视角到外部视角的反向迁移。正向迁移利用外部视角图像的交互信息来指导自我中心视角图像的可供性区域定位。反向迁移则利用自我中心视角图像中更清晰的物体信息来增强外部视角图像的知识提取。整个框架通过迭代的方式进行训练,不断优化两个视角的知识表示。

关键创新:论文的关键创新在于提出了闭环的知识迁移框架,以及统一的跨模态定位和去噪知识蒸馏机制。闭环框架打破了以往单向迁移的局限,实现了两个视角之间的相互促进。统一的跨模态定位机制能够有效地对齐不同视角的特征表示。去噪知识蒸馏则可以减少噪声数据对知识迁移的影响,提升模型的鲁棒性。

关键设计:LoopTrans框架中,统一的跨模态定位模块采用注意力机制来对齐不同视角的特征。去噪知识蒸馏模块则通过引入置信度阈值来过滤掉噪声样本。损失函数包括定位损失、知识蒸馏损失和循环一致性损失,用于约束模型的学习过程。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

LoopTrans在图像和视频基准测试中均取得了显著的性能提升。在遮挡场景下,LoopTrans的性能提升尤为明显,表明其具有较强的鲁棒性。实验结果表明,LoopTrans在各项指标上均优于现有的单向知识迁移方法,证明了闭环迁移框架的有效性。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于机器人操作、人机交互、辅助驾驶等领域。例如,机器人可以通过观察人类的交互行为,学习如何操作新的物体。辅助驾驶系统可以利用该技术识别车辆周围的可交互区域,从而提高驾驶安全性。该研究有助于提升机器对环境的理解能力,实现更智能的人机协作。

📄 摘要(原文)

Humans can perform previously unexperienced interactions with novel objects simply by observing others engage with them. Weakly-supervised affordance grounding mimics this process by learning to locate object regions that enable actions on egocentric images, using exocentric interaction images with image-level annotations. However, extracting affordance knowledge solely from exocentric images and transferring it one-way to egocentric images limits the applicability of previous works in complex interaction scenarios. Instead, this study introduces LoopTrans, a novel closed-loop framework that not only transfers knowledge from exocentric to egocentric but also transfers back to enhance exocentric knowledge extraction. Within LoopTrans, several innovative mechanisms are introduced, including unified cross-modal localization and denoising knowledge distillation, to bridge domain gaps between object-centered egocentric and interaction-centered exocentric images while enhancing knowledge transfer. Experiments show that LoopTrans achieves consistent improvements across all metrics on image and video benchmarks, even handling challenging scenarios where object interaction regions are fully occluded by the human body.