Disentangled Pre-training for Human-Object Interaction Detection
作者: Zhuolong Li, Xingao Li, Changxing Ding, Xiangmin Xu
分类: cs.CV
发布日期: 2024-04-02
备注: Accepted by CVPR2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出高效的解耦预训练方法以提升人机交互检测性能
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人机交互检测 解耦预训练 伪标签 知识转移 动作识别 物体检测 深度学习
📋 核心要点
- 现有的人机交互检测方法受限于监督数据的稀缺,伪标签生成过程复杂且噪声较大,影响模型性能。
- 本文提出的DP-HOI方法通过解耦预训练,利用物体检测和动作识别数据集进行有效的知识转移,提升HOI检测效果。
- 实验结果表明,DP-HOI在多个稀有类别上显著提升了HOI检测模型的性能,验证了其有效性。
📝 摘要(中文)
人机交互检测(HOI)长期以来受到可用监督数据量的限制。近期的方法通过伪标签进行预训练,以将物体区域与从图像标题解析的HOI三元组对齐。然而,伪标签的生成过程复杂且噪声较大,给HOI预训练带来了挑战。为此,本文提出了一种高效的解耦预训练方法DP-HOI。该方法利用物体检测和动作识别数据集分别对检测和交互解码器层进行预训练,并通过合理安排解码器层,使预训练架构与下游HOI检测任务一致,从而促进知识的有效转移。DP-HOI显著提升了现有HOI检测模型在稀有类别上的性能。
🔬 方法详解
问题定义:本文旨在解决人机交互检测(HOI)中由于监督数据不足而导致的性能瓶颈。现有方法依赖于伪标签生成,过程复杂且容易引入噪声,影响模型的准确性。
核心思路:DP-HOI通过解耦的预训练方法,分别利用物体检测和动作识别数据集对检测和交互解码器进行预训练,从而实现高效的知识转移,确保预训练架构与下游任务一致。
技术框架:DP-HOI的整体架构包括两个主要模块:检测解码器和交互解码器。首先,检测解码器从动作识别数据集中识别出可靠的人类实例,并生成相应的查询;然后,这些查询被输入到交互解码器中进行动词分类。最后,结合同一图像中的人类实例动词预测,施加图像级监督。
关键创新:DP-HOI的创新之处在于其解耦的预训练策略,通过合理的模块设计和知识转移机制,显著提升了HOI检测模型在稀有类别上的表现,区别于传统的伪标签方法。
关键设计:在设计中,DP-HOI采用了特定的损失函数以优化动词分类的准确性,并通过精心选择的网络结构确保解码器的高效协同工作。
📊 实验亮点
实验结果显示,DP-HOI在多个稀有类别上相较于基线模型提升了检测性能,具体提升幅度达到XX%,验证了其在HOI检测任务中的有效性和优越性。
🎯 应用场景
该研究的潜在应用领域包括智能监控、机器人交互和人机协作等场景。通过提升人机交互检测的准确性,DP-HOI能够在实际应用中更好地理解和分析人类与物体之间的互动,从而推动相关技术的发展与应用。
📄 摘要(原文)
Detecting human-object interaction (HOI) has long been limited by the amount of supervised data available. Recent approaches address this issue by pre-training according to pseudo-labels, which align object regions with HOI triplets parsed from image captions. However, pseudo-labeling is tricky and noisy, making HOI pre-training a complex process. Therefore, we propose an efficient disentangled pre-training method for HOI detection (DP-HOI) to address this problem. First, DP-HOI utilizes object detection and action recognition datasets to pre-train the detection and interaction decoder layers, respectively. Then, we arrange these decoder layers so that the pre-training architecture is consistent with the downstream HOI detection task. This facilitates efficient knowledge transfer. Specifically, the detection decoder identifies reliable human instances in each action recognition dataset image, generates one corresponding query, and feeds it into the interaction decoder for verb classification. Next, we combine the human instance verb predictions in the same image and impose image-level supervision. The DP-HOI structure can be easily adapted to the HOI detection task, enabling effective model parameter initialization. Therefore, it significantly enhances the performance of existing HOI detection models on a broad range of rare categories. The code and pre-trained weight are available at https://github.com/xingaoli/DP-HOI.