Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

作者: Yuqiu Jiang, Xiaozhen Qiao, Tianyu Mei, Haojian Huang, Yifan Chen, Ye Zheng, Zhe Sun

分类: cs.CV, cs.AI

发布日期: 2025-11-24

💡 一句话要点

提出自适应多样性缓存模块，无需额外训练即可缓解HOI检测中的长尾偏差。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人-物交互检测 长尾分布 自适应缓存 视觉语言模型 免训练 频率感知 多样性学习

📋 核心要点

现有基于VLM的HOI检测方法依赖额外训练或提示调优，计算开销大，长尾场景下性能受限。
提出自适应多样性缓存（ADC）模块，无需训练，通过构建类别特定缓存来提升罕见交互的检测。
实验表明，ADC在HICO-DET和V-COCO数据集上均有效提升了HOI检测性能，尤其是在罕见类别上。

📝 摘要（中文）

本文提出了一种名为自适应多样性缓存（ADC）模块的免训练、即插即用的机制，旨在缓解人-物交互（HOI）检测中的长尾偏差。HOI检测是计算机视觉中的一项基础任务，使机器能够理解各种真实场景中的人与物之间的关系。最近，基于视觉语言模型（VLM）的HOI检测方法通过利用丰富的跨模态表示取得了显著进展。然而，大多数现有方法严重依赖额外的训练或提示调优，导致大量的计算开销和有限的可扩展性，尤其是在罕见交互被严重低估的长尾场景中。ADC构建了特定于类别的高置信度和多样性特征表示缓存。该方法结合了频率感知缓存自适应，倾向于罕见类别，并旨在实现鲁棒的预测校准，而无需额外的训练或微调。在HICO-DET和V-COCO数据集上的大量实验表明，ADC始终如一地改进了现有的HOI检测器，在罕见类别上实现了高达+8.57%的mAP增益，在完整数据集上实现了+4.39%的mAP增益，证明了其在缓解长尾偏差同时保持整体性能方面的有效性。

🔬 方法详解

问题定义：HOI检测任务旨在识别图像中人与物体之间的交互关系。现有基于VLM的方法在处理长尾分布的数据时表现不佳，即常见交互的检测精度较高，而罕见交互的检测精度显著下降。这是因为模型在训练过程中更多地接触到常见交互，导致对罕见交互的特征学习不足。此外，为了适应特定的数据集，现有方法通常需要额外的训练或微调，增加了计算成本和部署难度。

核心思路：本文的核心思路是通过构建一个自适应的、多样性的特征缓存，来增强模型对罕见交互的识别能力。该缓存存储了每个类别的高置信度和多样性特征表示，在推理阶段，模型可以将当前输入的特征与缓存中的特征进行比较，从而提高对罕见交互的识别概率。这种方法无需额外的训练或微调，可以即插即用，降低了计算成本和部署难度。

技术框架：ADC模块主要包含以下几个阶段：1) 特征提取：使用预训练的VLM提取图像中人和物体的特征表示。2) 缓存构建：为每个HOI类别维护一个特征缓存，用于存储该类别的高置信度和多样性特征表示。3) 缓存更新：在推理过程中，根据预测置信度和特征多样性，动态更新缓存中的特征。4) 预测校准：利用缓存中的特征信息，对模型的预测结果进行校准，提高罕见交互的检测精度。

关键创新：ADC模块的关键创新在于其自适应性和多样性。自适应性体现在缓存的更新策略上，模块会根据HOI类别的频率动态调整缓存的更新速度，对罕见类别给予更多的关注。多样性体现在缓存中存储的特征表示上，模块会选择具有代表性的、互不相同的特征加入缓存，从而保证缓存中的特征能够覆盖该类别的多种变体。

关键设计：ADC模块的关键设计包括：1) 频率感知缓存更新策略：对罕见类别的缓存更新频率更高，以积累更多的特征表示。2) 基于置信度和多样性的特征选择策略：选择置信度高且与其他缓存特征差异大的特征加入缓存。3) 预测校准机制：利用缓存中的特征信息，对模型的预测结果进行加权平均，提高罕见交互的检测精度。具体实现细节包括使用余弦相似度来衡量特征之间的差异，以及使用温度系数来调整预测结果的置信度。

📊 实验亮点

实验结果表明，ADC模块在HICO-DET和V-COCO数据集上均取得了显著的性能提升。在HICO-DET数据集上，ADC在罕见类别上实现了高达+8.57%的mAP增益，在完整数据集上实现了+4.39%的mAP增益。在V-COCO数据集上，ADC也取得了类似的性能提升。这些结果表明，ADC模块能够有效地缓解HOI检测中的长尾偏差，提高模型的整体性能。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、机器人导航等领域。例如，在智能监控中，可以利用该方法更准确地识别异常行为，如盗窃、打架等。在人机交互中，可以使机器人更好地理解人类的意图，从而提供更自然、更智能的服务。在机器人导航中，可以帮助机器人更好地理解周围环境，从而实现更安全、更高效的导航。

📄 摘要（原文）

Human-Object Interaction (HOI) detection is a fundamental task in computer vision, empowering machines to comprehend human-object relationships in diverse real-world scenarios. Recent advances in VLMs have significantly improved HOI detection by leveraging rich cross-modal representations. However, most existing VLM-based approaches rely heavily on additional training or prompt tuning, resulting in substantial computational overhead and limited scalability, particularly in long-tailed scenarios where rare interactions are severely underrepresented. In this paper, we propose the Adaptive Diversity Cache (ADC) module, a novel training-free and plug-and-play mechanism designed to mitigate long-tail bias in HOI detection. ADC constructs class-specific caches that accumulate high-confidence and diverse feature representations during inference. The method incorporates frequency-aware cache adaptation that favors rare categories and is designed to enable robust prediction calibration without requiring additional training or fine-tuning. Extensive experiments on HICO-DET and V-COCO datasets show that ADC consistently improves existing HOI detectors, achieving up to +8.57\% mAP gain on rare categories and +4.39\% on the full dataset, demonstrating its effectiveness in mitigating long-tail bias while preserving overall performance.

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册