Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

作者: Chanhyeong Yang, Taehoon Song, Jihwan Park, Hyunwoo J. Kim

分类: cs.CV

发布日期: 2025-10-29

备注: Accepted by NeurIPS 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出VDRP框架，解决零样本HOI检测中视觉多样性和区域感知问题。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 零样本学习 人-物交互检测 提示学习 视觉多样性 区域感知 视觉语言模型 HOI检测

📋 核心要点

现有零样本HOI检测方法难以处理类内视觉多样性和类间视觉纠缠问题，限制了模型泛化能力。
VDRP框架通过视觉多样性感知和区域感知的提示学习，增强模型对交互视觉复杂性的理解。
在HICO-DET数据集上的实验表明，VDRP在零样本HOI检测任务上取得了显著的性能提升。

📝 摘要（中文）

本文提出了一种用于零样本人-物交互（HOI）检测的框架VDRP，旨在解决训练期间未见过的动词-物体对的交互检测问题。该方法利用预训练的视觉-语言模型（如CLIP）进行提示学习，将自然语言提示与视觉特征对齐到共享嵌入空间。为了应对交互的视觉复杂性，包括类内视觉多样性和类间视觉纠缠，VDRP引入了视觉多样性感知的提示学习策略，将组内的视觉差异注入到上下文嵌入中，并通过高斯扰动鼓励提示捕获动词的各种视觉变化。此外，从人体、物体和联合区域检索区域特定的概念，以增强多样性感知提示嵌入，从而产生区域感知的提示，提高动词级别的区分能力。在HICO-DET基准测试上的实验表明，该方法在四种零样本评估设置下均实现了最先进的性能。

🔬 方法详解

问题定义：零样本HOI检测旨在识别图像中人和物体之间的交互关系，并且这些交互关系在训练阶段是未曾见过的。现有方法主要依赖于预训练的视觉-语言模型，但忽略了HOI中存在的视觉多样性（同一动词对应多种姿态和上下文）和视觉纠缠（不同动词具有相似的视觉模式）问题，导致泛化能力不足。

核心思路：VDRP的核心思路是同时考虑视觉多样性和区域感知。通过引入视觉多样性感知的提示学习，模型能够更好地捕捉同一动词的不同视觉表现。同时，利用区域特定的概念来增强提示，提高不同动词之间的区分度。这样，模型就能更好地理解和识别未见过的HOI关系。

技术框架：VDRP框架主要包含两个关键模块：视觉多样性感知的提示学习模块和区域感知的提示增强模块。首先，视觉多样性感知模块通过将组内的视觉差异注入到上下文嵌入中，并应用高斯扰动来鼓励提示捕获动词的各种视觉变化。然后，区域感知模块从人体、物体和联合区域提取区域特定的概念，并将这些概念融入到提示嵌入中，生成区域感知的提示。最终，利用这些增强的提示进行HOI检测。

关键创新：VDRP的关键创新在于同时考虑了视觉多样性和区域感知，并将其融入到提示学习框架中。与现有方法相比，VDRP能够更好地处理HOI中的视觉复杂性，从而提高零样本HOI检测的性能。具体来说，视觉多样性感知模块和区域感知模块是VDRP独有的，能够有效解决类内视觉多样性和类间视觉纠缠问题。

关键设计：在视觉多样性感知模块中，使用了组内方差来衡量视觉差异，并将其注入到上下文嵌入中。高斯扰动的标准差是一个需要调整的超参数，用于控制扰动的强度。在区域感知模块中，需要选择合适的区域特征提取方法，并确定如何将区域概念融入到提示嵌入中。损失函数的设计也至关重要，需要能够有效地训练模型，使其能够区分不同的HOI关系。

🖼️ 关键图片

📊 实验亮点

VDRP在HICO-DET基准测试上取得了显著的性能提升，在四种零样本评估设置下均达到了最先进的水平。具体来说，VDRP在各个评估指标上都超过了现有的基线方法，证明了其有效性。代码已开源，方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于智能监控、机器人交互、图像检索等领域。例如，在智能监控中，可以利用该技术自动识别监控视频中人和物体之间的异常交互行为。在机器人交互中，机器人可以利用该技术理解人类的指令，并与环境中的物体进行交互。此外，该技术还可以用于图像检索，根据图像中人和物体之间的交互关系来检索相关的图像。

📄 摘要（原文）

Zero-shot Human-Object Interaction detection aims to localize humans and objects in an image and recognize their interaction, even when specific verb-object pairs are unseen during training. Recent works have shown promising results using prompt learning with pretrained vision-language models such as CLIP, which align natural language prompts with visual features in a shared embedding space. However, existing approaches still fail to handle the visual complexity of interaction, including (1) intra-class visual diversity, where instances of the same verb appear in diverse poses and contexts, and (2) inter-class visual entanglement, where distinct verbs yield visually similar patterns. To address these challenges, we propose VDRP, a framework for Visual Diversity and Region-aware Prompt learning. First, we introduce a visual diversity-aware prompt learning strategy that injects group-wise visual variance into the context embedding. We further apply Gaussian perturbation to encourage the prompts to capture diverse visual variations of a verb. Second, we retrieve region-specific concepts from the human, object, and union regions. These are used to augment the diversity-aware prompt embeddings, yielding region-aware prompts that enhance verb-level discrimination. Experiments on the HICO-DET benchmark demonstrate that our method achieves state-of-the-art performance under four zero-shot evaluation settings, effectively addressing both intra-class diversity and inter-class visual entanglement. Code is available at https://github.com/mlvlab/VDRP.

Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理