Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache
作者: Yuqiu Jiang, Xiaozhen Qiao, Tianyu Mei, Haojian Huang, Yifan Chen, Ye Zheng, Zhe Sun
分类: cs.CV, cs.AI
发布日期: 2025-11-24
💡 一句话要点
提出自适应多样性缓存模块,无需额外训练即可缓解HOI检测中的长尾偏差。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人-物交互检测 长尾分布 自适应缓存 视觉语言模型 免训练 频率感知 多样性学习
📋 核心要点
- 现有基于VLM的HOI检测方法依赖额外训练或提示调优,计算开销大,长尾场景下性能受限。
- 提出自适应多样性缓存(ADC)模块,无需训练,通过构建类别特定缓存来提升罕见交互的检测。
- 实验表明,ADC在HICO-DET和V-COCO数据集上均有效提升了HOI检测性能,尤其是在罕见类别上。
📝 摘要(中文)
本文提出了一种名为自适应多样性缓存(ADC)模块的免训练、即插即用的机制,旨在缓解人-物交互(HOI)检测中的长尾偏差。HOI检测是计算机视觉中的一项基础任务,使机器能够理解各种真实场景中的人与物之间的关系。最近,基于视觉语言模型(VLM)的HOI检测方法通过利用丰富的跨模态表示取得了显著进展。然而,大多数现有方法严重依赖额外的训练或提示调优,导致大量的计算开销和有限的可扩展性,尤其是在罕见交互被严重低估的长尾场景中。ADC构建了特定于类别的高置信度和多样性特征表示缓存。该方法结合了频率感知缓存自适应,倾向于罕见类别,并旨在实现鲁棒的预测校准,而无需额外的训练或微调。在HICO-DET和V-COCO数据集上的大量实验表明,ADC始终如一地改进了现有的HOI检测器,在罕见类别上实现了高达+8.57%的mAP增益,在完整数据集上实现了+4.39%的mAP增益,证明了其在缓解长尾偏差同时保持整体性能方面的有效性。
🔬 方法详解
问题定义:HOI检测任务旨在识别图像中人与物体之间的交互关系。现有基于VLM的方法在处理长尾分布的数据时表现不佳,即常见交互的检测精度较高,而罕见交互的检测精度显著下降。这是因为模型在训练过程中更多地接触到常见交互,导致对罕见交互的特征学习不足。此外,为了适应特定的数据集,现有方法通常需要额外的训练或微调,增加了计算成本和部署难度。
核心思路:本文的核心思路是通过构建一个自适应的、多样性的特征缓存,来增强模型对罕见交互的识别能力。该缓存存储了每个类别的高置信度和多样性特征表示,在推理阶段,模型可以将当前输入的特征与缓存中的特征进行比较,从而提高对罕见交互的识别概率。这种方法无需额外的训练或微调,可以即插即用,降低了计算成本和部署难度。
技术框架:ADC模块主要包含以下几个阶段:1) 特征提取:使用预训练的VLM提取图像中人和物体的特征表示。2) 缓存构建:为每个HOI类别维护一个特征缓存,用于存储该类别的高置信度和多样性特征表示。3) 缓存更新:在推理过程中,根据预测置信度和特征多样性,动态更新缓存中的特征。4) 预测校准:利用缓存中的特征信息,对模型的预测结果进行校准,提高罕见交互的检测精度。
关键创新:ADC模块的关键创新在于其自适应性和多样性。自适应性体现在缓存的更新策略上,模块会根据HOI类别的频率动态调整缓存的更新速度,对罕见类别给予更多的关注。多样性体现在缓存中存储的特征表示上,模块会选择具有代表性的、互不相同的特征加入缓存,从而保证缓存中的特征能够覆盖该类别的多种变体。
关键设计:ADC模块的关键设计包括:1) 频率感知缓存更新策略:对罕见类别的缓存更新频率更高,以积累更多的特征表示。2) 基于置信度和多样性的特征选择策略:选择置信度高且与其他缓存特征差异大的特征加入缓存。3) 预测校准机制:利用缓存中的特征信息,对模型的预测结果进行加权平均,提高罕见交互的检测精度。具体实现细节包括使用余弦相似度来衡量特征之间的差异,以及使用温度系数来调整预测结果的置信度。
📊 实验亮点
实验结果表明,ADC模块在HICO-DET和V-COCO数据集上均取得了显著的性能提升。在HICO-DET数据集上,ADC在罕见类别上实现了高达+8.57%的mAP增益,在完整数据集上实现了+4.39%的mAP增益。在V-COCO数据集上,ADC也取得了类似的性能提升。这些结果表明,ADC模块能够有效地缓解HOI检测中的长尾偏差,提高模型的整体性能。
🎯 应用场景
该研究成果可应用于智能监控、人机交互、机器人导航等领域。例如,在智能监控中,可以利用该方法更准确地识别异常行为,如盗窃、打架等。在人机交互中,可以使机器人更好地理解人类的意图,从而提供更自然、更智能的服务。在机器人导航中,可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的导航。
📄 摘要(原文)
Human-Object Interaction (HOI) detection is a fundamental task in computer vision, empowering machines to comprehend human-object relationships in diverse real-world scenarios. Recent advances in VLMs have significantly improved HOI detection by leveraging rich cross-modal representations. However, most existing VLM-based approaches rely heavily on additional training or prompt tuning, resulting in substantial computational overhead and limited scalability, particularly in long-tailed scenarios where rare interactions are severely underrepresented. In this paper, we propose the Adaptive Diversity Cache (ADC) module, a novel training-free and plug-and-play mechanism designed to mitigate long-tail bias in HOI detection. ADC constructs class-specific caches that accumulate high-confidence and diverse feature representations during inference. The method incorporates frequency-aware cache adaptation that favors rare categories and is designed to enable robust prediction calibration without requiring additional training or fine-tuning. Extensive experiments on HICO-DET and V-COCO datasets show that ADC consistently improves existing HOI detectors, achieving up to +8.57\% mAP gain on rare categories and +4.39\% on the full dataset, demonstrating its effectiveness in mitigating long-tail bias while preserving overall performance.