Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

📄 arXiv: 2510.25094v1 📥 PDF

作者: Chanhyeong Yang, Taehoon Song, Jihwan Park, Hyunwoo J. Kim

分类: cs.CV

发布日期: 2025-10-29

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出VDRP框架,解决零样本HOI检测中视觉多样性和区域感知问题。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 零样本学习 人-物交互检测 提示学习 视觉多样性 区域感知 视觉语言模型 HOI检测

📋 核心要点

  1. 现有零样本HOI检测方法难以处理类内视觉多样性和类间视觉纠缠问题,限制了模型泛化能力。
  2. VDRP框架通过视觉多样性感知和区域感知的提示学习,增强模型对交互视觉复杂性的理解。
  3. 在HICO-DET数据集上的实验表明,VDRP在零样本HOI检测任务上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种用于零样本人-物交互(HOI)检测的框架VDRP,旨在解决训练期间未见过的动词-物体对的交互检测问题。该方法利用预训练的视觉-语言模型(如CLIP)进行提示学习,将自然语言提示与视觉特征对齐到共享嵌入空间。为了应对交互的视觉复杂性,包括类内视觉多样性和类间视觉纠缠,VDRP引入了视觉多样性感知的提示学习策略,将组内的视觉差异注入到上下文嵌入中,并通过高斯扰动鼓励提示捕获动词的各种视觉变化。此外,从人体、物体和联合区域检索区域特定的概念,以增强多样性感知提示嵌入,从而产生区域感知的提示,提高动词级别的区分能力。在HICO-DET基准测试上的实验表明,该方法在四种零样本评估设置下均实现了最先进的性能。

🔬 方法详解

问题定义:零样本HOI检测旨在识别图像中人和物体之间的交互关系,并且这些交互关系在训练阶段是未曾见过的。现有方法主要依赖于预训练的视觉-语言模型,但忽略了HOI中存在的视觉多样性(同一动词对应多种姿态和上下文)和视觉纠缠(不同动词具有相似的视觉模式)问题,导致泛化能力不足。

核心思路:VDRP的核心思路是同时考虑视觉多样性和区域感知。通过引入视觉多样性感知的提示学习,模型能够更好地捕捉同一动词的不同视觉表现。同时,利用区域特定的概念来增强提示,提高不同动词之间的区分度。这样,模型就能更好地理解和识别未见过的HOI关系。

技术框架:VDRP框架主要包含两个关键模块:视觉多样性感知的提示学习模块和区域感知的提示增强模块。首先,视觉多样性感知模块通过将组内的视觉差异注入到上下文嵌入中,并应用高斯扰动来鼓励提示捕获动词的各种视觉变化。然后,区域感知模块从人体、物体和联合区域提取区域特定的概念,并将这些概念融入到提示嵌入中,生成区域感知的提示。最终,利用这些增强的提示进行HOI检测。

关键创新:VDRP的关键创新在于同时考虑了视觉多样性和区域感知,并将其融入到提示学习框架中。与现有方法相比,VDRP能够更好地处理HOI中的视觉复杂性,从而提高零样本HOI检测的性能。具体来说,视觉多样性感知模块和区域感知模块是VDRP独有的,能够有效解决类内视觉多样性和类间视觉纠缠问题。

关键设计:在视觉多样性感知模块中,使用了组内方差来衡量视觉差异,并将其注入到上下文嵌入中。高斯扰动的标准差是一个需要调整的超参数,用于控制扰动的强度。在区域感知模块中,需要选择合适的区域特征提取方法,并确定如何将区域概念融入到提示嵌入中。损失函数的设计也至关重要,需要能够有效地训练模型,使其能够区分不同的HOI关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VDRP在HICO-DET基准测试上取得了显著的性能提升,在四种零样本评估设置下均达到了最先进的水平。具体来说,VDRP在各个评估指标上都超过了现有的基线方法,证明了其有效性。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于智能监控、机器人交互、图像检索等领域。例如,在智能监控中,可以利用该技术自动识别监控视频中人和物体之间的异常交互行为。在机器人交互中,机器人可以利用该技术理解人类的指令,并与环境中的物体进行交互。此外,该技术还可以用于图像检索,根据图像中人和物体之间的交互关系来检索相关的图像。

📄 摘要(原文)

Zero-shot Human-Object Interaction detection aims to localize humans and objects in an image and recognize their interaction, even when specific verb-object pairs are unseen during training. Recent works have shown promising results using prompt learning with pretrained vision-language models such as CLIP, which align natural language prompts with visual features in a shared embedding space. However, existing approaches still fail to handle the visual complexity of interaction, including (1) intra-class visual diversity, where instances of the same verb appear in diverse poses and contexts, and (2) inter-class visual entanglement, where distinct verbs yield visually similar patterns. To address these challenges, we propose VDRP, a framework for Visual Diversity and Region-aware Prompt learning. First, we introduce a visual diversity-aware prompt learning strategy that injects group-wise visual variance into the context embedding. We further apply Gaussian perturbation to encourage the prompts to capture diverse visual variations of a verb. Second, we retrieve region-specific concepts from the human, object, and union regions. These are used to augment the diversity-aware prompt embeddings, yielding region-aware prompts that enhance verb-level discrimination. Experiments on the HICO-DET benchmark demonstrate that our method achieves state-of-the-art performance under four zero-shot evaluation settings, effectively addressing both intra-class diversity and inter-class visual entanglement. Code is available at https://github.com/mlvlab/VDRP.