Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection
作者: Sandipan Sarma, Agney Talwarr, Arijit Sur
分类: cs.CV
发布日期: 2025-07-16
备注: 10 pages, 6 figures
💡 一句话要点
Funnel-HOI:一种用于零样本人-物交互检测的自顶向下感知框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人-物交互检测 零样本学习 自顶向下感知 协同注意力机制 多模态融合
📋 核心要点
- 现有HOI检测方法侧重于改进解码器,忽略了编码器阶段对HOI特定线索的提取,导致场景理解能力不足。
- Funnel-HOI框架模拟人类认知过程,先检测明确的物体概念,再关联抽象的动作概念,从而增强场景理解。
- 通过非对称协同注意力机制和考虑物体-动作相关性的损失函数,Funnel-HOI在零样本HOI检测上取得了显著的性能提升。
📝 摘要(中文)
人-物交互检测(HOID)旨在定位图像中交互的人-物对并识别交互类型。由于物体-动作组合的数量呈指数增长,标注数据有限,导致长尾分布问题。最近,零样本学习成为一种解决方案,基于Transformer的端到端物体检测器被成功地应用于HOID。然而,它们主要关注于设计改进的解码器,以学习交互的纠缠或解耦解释。我们认为,HOI特定的线索必须在编码器阶段就被预测到,以获得更强的场景理解。因此,我们构建了一个名为Funnel-HOI的自顶向下框架,其灵感来源于人类在场景理解过程中先掌握明确的概念,然后将其与抽象概念联系起来的倾向。我们首先探测图像中物体的存在(明确的概念),然后探测与它们相关的动作(抽象的概念)。一种新颖的非对称协同注意力机制利用多模态信息(包含零样本能力)挖掘这些线索,并在编码器级别产生更强的交互表示。此外,设计了一种新的损失函数,该函数考虑了物体-动作的相关性,并且比现有的损失函数更好地调节了误分类惩罚,从而指导交互分类器。在HICO-DET和V-COCO数据集上进行的大量实验,涵盖了完全监督和六种零样本设置,揭示了我们最先进的性能,对于未见和罕见的HOI类别,分别获得了高达12.4%和8.4%的增益。
🔬 方法详解
问题定义:论文旨在解决零样本人-物交互(HOI)检测中,由于数据长尾分布和现有方法对HOI特定线索提取不足导致的性能瓶颈问题。现有方法主要集中在改进解码器,而忽略了在编码器阶段对HOI相关信息的有效提取,限制了模型对场景的整体理解能力。
核心思路:论文的核心思路是模拟人类认知过程,采用自顶向下的方法,首先关注图像中明确的物体概念,然后将这些物体与相关的动作概念联系起来。这种“由具体到抽象”的策略有助于模型更好地理解场景中的交互关系,尤其是在缺乏标注数据的零样本场景下。
技术框架:Funnel-HOI框架主要包含以下几个阶段:1) 物体检测:首先检测图像中存在的物体,作为明确的概念。2) 动作预测:基于检测到的物体,预测与之相关的动作,作为抽象的概念。3) 非对称协同注意力:利用非对称协同注意力机制,融合物体和动作的多模态信息,挖掘HOI相关的线索,生成更强的交互表示。4) 交互分类:使用交互分类器,基于学习到的交互表示,预测人-物交互的类别。
关键创新:论文的关键创新在于:1) 自顶向下感知框架:模拟人类认知过程,先关注物体,再关联动作,增强场景理解能力。2) 非对称协同注意力机制:有效融合物体和动作的多模态信息,挖掘HOI相关的线索。3) 考虑物体-动作相关性的损失函数:更好地调节误分类惩罚,指导交互分类器学习。
关键设计:1) 非对称协同注意力:设计非对称的注意力机制,允许物体和动作信息之间进行有选择性的交互,避免信息冗余。2) 损失函数:设计了一种新的损失函数,该函数不仅考虑了分类的准确性,还考虑了物体和动作之间的语义相关性,从而更好地指导模型的训练。具体来说,该损失函数会根据物体和动作之间的相关程度,对不同的误分类情况进行不同的惩罚,从而鼓励模型学习更符合语义逻辑的交互关系。
🖼️ 关键图片
📊 实验亮点
Funnel-HOI在HICO-DET和V-COCO数据集上进行了广泛的实验,并在完全监督和六种零样本设置下都取得了最先进的性能。特别是在零样本设置下,对于未见和罕见的HOI类别,分别获得了高达12.4%和8.4%的增益,证明了该方法在处理长尾分布问题上的有效性。
🎯 应用场景
该研究成果可应用于智能监控、机器人交互、图像检索等领域。例如,在智能监控中,可以利用该技术自动识别监控视频中的异常行为,如盗窃、打架等。在机器人交互中,可以帮助机器人理解人类的意图,从而更好地与人类进行协作。在图像检索中,可以根据图像中的人-物交互关系进行检索,提高检索的准确率。
📄 摘要(原文)
Human-object interaction detection (HOID) refers to localizing interactive human-object pairs in images and identifying the interactions. Since there could be an exponential number of object-action combinations, labeled data is limited - leading to a long-tail distribution problem. Recently, zero-shot learning emerged as a solution, with end-to-end transformer-based object detectors adapted for HOID becoming successful frameworks. However, their primary focus is designing improved decoders for learning entangled or disentangled interpretations of interactions. We advocate that HOI-specific cues must be anticipated at the encoder stage itself to obtain a stronger scene interpretation. Consequently, we build a top-down framework named Funnel-HOI inspired by the human tendency to grasp well-defined concepts first and then associate them with abstract concepts during scene understanding. We first probe an image for the presence of objects (well-defined concepts) and then probe for actions (abstract concepts) associated with them. A novel asymmetric co-attention mechanism mines these cues utilizing multimodal information (incorporating zero-shot capabilities) and yields stronger interaction representations at the encoder level. Furthermore, a novel loss is devised that considers objectaction relatedness and regulates misclassification penalty better than existing loss functions for guiding the interaction classifier. Extensive experiments on the HICO-DET and V-COCO datasets across fully-supervised and six zero-shot settings reveal our state-of-the-art performance, with up to 12.4% and 8.4% gains for unseen and rare HOI categories, respectively.