Active Object Detection with Knowledge Aggregation and Distillation from Large Models

📄 arXiv: 2405.12509v1 📥 PDF

作者: Dejie Yang, Yang Liu

分类: cs.CV

发布日期: 2024-05-21


💡 一句话要点

提出基于知识聚合与蒸馏的主动对象检测方法,提升交互场景下的检测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 主动对象检测 知识聚合 知识蒸馏 对象交互 先验知识

📋 核心要点

  1. 现有主动对象检测方法依赖视觉特征,在复杂交互场景下易受干扰,精度受限。
  2. 利用对象交互先验知识,通过知识聚合与蒸馏,提升模型对主动对象的识别能力。
  3. 实验结果表明,该方法在多个数据集上达到SOTA,显著提升了主动对象检测性能。

📝 摘要(中文)

精确检测状态变化中的主动对象对于理解人机交互和辅助决策至关重要。现有主动对象检测(AOD)方法主要依赖于输入中对象的外观视觉特征,例如大小、形状以及与手的关系变化。然而,这些视觉变化可能很微妙,尤其是在存在多个相同类别但未发生变化的干扰实例时,会带来挑战。我们观察到,状态变化通常是对象上执行交互的结果,因此提出利用关于对象相关合理交互的先验知识(包括语义和视觉外观)来为AOD提供更可靠的线索。具体而言,我们提出了一种知识聚合程序,将上述先验知识集成到教师解码器中的oracle查询中,从而提供更多的对象可供性常识来定位主动对象。为了简化推理过程并减少额外的知识输入,我们提出了一种知识蒸馏方法,该方法通过复制其预测和注意力,鼓励学生解码器模仿教师解码器使用oracle查询的检测能力。我们提出的框架在Ego4D、Epic-Kitchens、MECCANO和100DOH四个数据集上实现了最先进的性能,证明了我们的方法在改进AOD方面的有效性。

🔬 方法详解

问题定义:主动对象检测旨在识别场景中正在发生状态变化的对象。现有方法主要依赖于视觉外观,例如对象的大小、形状变化以及与手的关系。然而,在复杂场景中,这些视觉变化可能非常细微,并且存在大量未发生变化的同类对象作为干扰,导致检测精度下降。因此,如何有效利用上下文信息,提高模型对主动对象的辨别能力,是该论文要解决的核心问题。

核心思路:论文的核心思路是利用对象交互的先验知识来辅助主动对象检测。作者观察到,对象的状态变化通常是由于某种交互行为作用于该对象所致。因此,如果模型能够理解对象可能发生的交互行为(例如,杯子可以被拿起、倒水等),就能更好地判断该对象是否处于主动状态。通过将这些先验知识融入到模型中,可以提高模型对主动对象的识别能力。

技术框架:该方法采用教师-学生模型的知识蒸馏框架。首先,构建一个教师解码器,该解码器利用知识聚合程序,将对象交互的先验知识融入到oracle查询中。然后,训练一个学生解码器,使其模仿教师解码器的检测能力。具体流程如下:1) 知识聚合:将对象交互的语义和视觉信息融入到教师解码器的oracle查询中,为模型提供更丰富的上下文信息。2) 教师解码器:利用融合了先验知识的oracle查询,预测主动对象的位置。3) 知识蒸馏:使用教师解码器的预测结果和注意力图作为监督信号,训练学生解码器,使其具备与教师解码器相似的检测能力。

关键创新:该论文的关键创新在于:1) 提出了一种知识聚合程序,将对象交互的先验知识融入到主动对象检测中。2) 采用教师-学生模型的知识蒸馏框架,将教师解码器的知识迁移到学生解码器,从而在不增加推理负担的情况下,提升模型的检测性能。3) 利用oracle查询作为知识传递的桥梁,使得知识聚合和蒸馏过程更加高效。

关键设计:在知识聚合方面,论文使用了对象交互的语义信息(例如,交互类型)和视觉信息(例如,交互过程中手的姿态)。这些信息被编码成向量,并与oracle查询进行融合。在知识蒸馏方面,论文使用了教师解码器的预测结果(例如,边界框)和注意力图作为监督信号。学生解码器通过最小化与教师解码器预测结果和注意力图之间的差异来学习知识。损失函数包括预测损失和注意力损失。具体的网络结构细节和参数设置在论文中有详细描述。

📊 实验亮点

该方法在Ego4D、Epic-Kitchens、MECCANO和100DOH四个数据集上取得了state-of-the-art的性能。例如,在Ego4D数据集上,该方法相比于之前的最佳方法,在主动对象检测精度上提升了显著的百分比(具体数值需要在论文中查找)。实验结果表明,该方法能够有效地利用对象交互的先验知识,提高模型对主动对象的识别能力。

🎯 应用场景

该研究成果可应用于机器人交互、智能监控、自动驾驶等领域。例如,在机器人交互中,机器人可以利用该方法识别用户正在操作的对象,从而更好地理解用户的意图并做出相应的反应。在智能监控中,该方法可以用于检测异常行为,例如盗窃、破坏等。在自动驾驶中,该方法可以用于识别行人正在交互的对象,从而更好地预测行人的行为。

📄 摘要(原文)

Accurately detecting active objects undergoing state changes is essential for comprehending human interactions and facilitating decision-making. The existing methods for active object detection (AOD) primarily rely on visual appearance of the objects within input, such as changes in size, shape and relationship with hands. However, these visual changes can be subtle, posing challenges, particularly in scenarios with multiple distracting no-change instances of the same category. We observe that the state changes are often the result of an interaction being performed upon the object, thus propose to use informed priors about object related plausible interactions (including semantics and visual appearance) to provide more reliable cues for AOD. Specifically, we propose a knowledge aggregation procedure to integrate the aforementioned informed priors into oracle queries within the teacher decoder, offering more object affordance commonsense to locate the active object. To streamline the inference process and reduce extra knowledge inputs, we propose a knowledge distillation approach that encourages the student decoder to mimic the detection capabilities of the teacher decoder using the oracle query by replicating its predictions and attention. Our proposed framework achieves state-of-the-art performance on four datasets, namely Ego4D, Epic-Kitchens, MECCANO, and 100DOH, which demonstrates the effectiveness of our approach in improving AOD.