Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection

作者: Sandipan Sarma, Agney Talwarr, Arijit Sur

分类: cs.CV

发布日期: 2025-07-16

备注: 10 pages, 6 figures

💡 一句话要点

Funnel-HOI：一种用于零样本人-物交互检测的自顶向下感知框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人-物交互检测 零样本学习 自顶向下感知 协同注意力机制 多模态融合

📋 核心要点

现有HOI检测方法侧重于改进解码器，忽略了编码器阶段对HOI特定线索的提取，导致场景理解能力不足。
Funnel-HOI框架模拟人类认知过程，先检测明确的物体概念，再关联抽象的动作概念，从而增强场景理解。
通过非对称协同注意力机制和考虑物体-动作相关性的损失函数，Funnel-HOI在零样本HOI检测上取得了显著的性能提升。

📝 摘要（中文）

人-物交互检测（HOID）旨在定位图像中交互的人-物对并识别交互类型。由于物体-动作组合的数量呈指数增长，标注数据有限，导致长尾分布问题。最近，零样本学习成为一种解决方案，基于Transformer的端到端物体检测器被成功地应用于HOID。然而，它们主要关注于设计改进的解码器，以学习交互的纠缠或解耦解释。我们认为，HOI特定的线索必须在编码器阶段就被预测到，以获得更强的场景理解。因此，我们构建了一个名为Funnel-HOI的自顶向下框架，其灵感来源于人类在场景理解过程中先掌握明确的概念，然后将其与抽象概念联系起来的倾向。我们首先探测图像中物体的存在（明确的概念），然后探测与它们相关的动作（抽象的概念）。一种新颖的非对称协同注意力机制利用多模态信息（包含零样本能力）挖掘这些线索，并在编码器级别产生更强的交互表示。此外，设计了一种新的损失函数，该函数考虑了物体-动作的相关性，并且比现有的损失函数更好地调节了误分类惩罚，从而指导交互分类器。在HICO-DET和V-COCO数据集上进行的大量实验，涵盖了完全监督和六种零样本设置，揭示了我们最先进的性能，对于未见和罕见的HOI类别，分别获得了高达12.4%和8.4%的增益。

🔬 方法详解

问题定义：论文旨在解决零样本人-物交互（HOI）检测中，由于数据长尾分布和现有方法对HOI特定线索提取不足导致的性能瓶颈问题。现有方法主要集中在改进解码器，而忽略了在编码器阶段对HOI相关信息的有效提取，限制了模型对场景的整体理解能力。

核心思路：论文的核心思路是模拟人类认知过程，采用自顶向下的方法，首先关注图像中明确的物体概念，然后将这些物体与相关的动作概念联系起来。这种“由具体到抽象”的策略有助于模型更好地理解场景中的交互关系，尤其是在缺乏标注数据的零样本场景下。

技术框架：Funnel-HOI框架主要包含以下几个阶段：1) 物体检测：首先检测图像中存在的物体，作为明确的概念。2) 动作预测：基于检测到的物体，预测与之相关的动作，作为抽象的概念。3) 非对称协同注意力：利用非对称协同注意力机制，融合物体和动作的多模态信息，挖掘HOI相关的线索，生成更强的交互表示。4) 交互分类：使用交互分类器，基于学习到的交互表示，预测人-物交互的类别。

关键创新：论文的关键创新在于：1) 自顶向下感知框架：模拟人类认知过程，先关注物体，再关联动作，增强场景理解能力。2) 非对称协同注意力机制：有效融合物体和动作的多模态信息，挖掘HOI相关的线索。3) 考虑物体-动作相关性的损失函数：更好地调节误分类惩罚，指导交互分类器学习。

关键设计：1) 非对称协同注意力：设计非对称的注意力机制，允许物体和动作信息之间进行有选择性的交互，避免信息冗余。2) 损失函数：设计了一种新的损失函数，该函数不仅考虑了分类的准确性，还考虑了物体和动作之间的语义相关性，从而更好地指导模型的训练。具体来说，该损失函数会根据物体和动作之间的相关程度，对不同的误分类情况进行不同的惩罚，从而鼓励模型学习更符合语义逻辑的交互关系。

🖼️ 关键图片

📊 实验亮点

Funnel-HOI在HICO-DET和V-COCO数据集上进行了广泛的实验，并在完全监督和六种零样本设置下都取得了最先进的性能。特别是在零样本设置下，对于未见和罕见的HOI类别，分别获得了高达12.4%和8.4%的增益，证明了该方法在处理长尾分布问题上的有效性。

🎯 应用场景

该研究成果可应用于智能监控、机器人交互、图像检索等领域。例如，在智能监控中，可以利用该技术自动识别监控视频中的异常行为，如盗窃、打架等。在机器人交互中，可以帮助机器人理解人类的意图，从而更好地与人类进行协作。在图像检索中，可以根据图像中的人-物交互关系进行检索，提高检索的准确率。

📄 摘要（原文）

Human-object interaction detection (HOID) refers to localizing interactive human-object pairs in images and identifying the interactions. Since there could be an exponential number of object-action combinations, labeled data is limited - leading to a long-tail distribution problem. Recently, zero-shot learning emerged as a solution, with end-to-end transformer-based object detectors adapted for HOID becoming successful frameworks. However, their primary focus is designing improved decoders for learning entangled or disentangled interpretations of interactions. We advocate that HOI-specific cues must be anticipated at the encoder stage itself to obtain a stronger scene interpretation. Consequently, we build a top-down framework named Funnel-HOI inspired by the human tendency to grasp well-defined concepts first and then associate them with abstract concepts during scene understanding. We first probe an image for the presence of objects (well-defined concepts) and then probe for actions (abstract concepts) associated with them. A novel asymmetric co-attention mechanism mines these cues utilizing multimodal information (incorporating zero-shot capabilities) and yields stronger interaction representations at the encoder level. Furthermore, a novel loss is devised that considers objectaction relatedness and regulates misclassification penalty better than existing loss functions for guiding the interaction classifier. Extensive experiments on the HICO-DET and V-COCO datasets across fully-supervised and six zero-shot settings reveal our state-of-the-art performance, with up to 12.4% and 8.4% gains for unseen and rare HOI categories, respectively.

Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理