Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models
作者: Liulei Li, Wenguan Wang, Yi Yang
分类: cs.CV
发布日期: 2024-10-26
备注: NeurIPS 2024
💡 一句话要点
提出DIFFUSIONHOI,利用关系驱动的扩散模型提升人-物交互检测性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人-物交互检测 扩散模型 关系嵌入 文本到图像生成 零样本学习
📋 核心要点
- 现有HOI检测方法依赖对比学习,忽略中低层视觉信息,组合推理能力弱。
- DIFFUSIONHOI利用扩散模型生成能力,学习关系嵌入,引导模型关注HOI相关线索。
- 实验表明,DIFFUSIONHOI在多个数据集上,常规和零样本设置下均达到SOTA性能。
📝 摘要(中文)
现有的人-物交互(HOI)检测方法通常利用大规模视觉-语言模型来识别涉及人和物体的事件。尽管这些方法很有前景,但通过文本-图像对上的对比学习训练的模型通常忽略了中/低级视觉线索,并且在组合推理方面表现不佳。为了解决这个问题,我们提出了DIFFUSIONHOI,一种利用文本到图像扩散模型的新型HOI检测器。与上述模型不同,扩散模型作为生成模型,擅长识别中/低级视觉概念,并且具有强大的组合性来处理文本输入中表达的新概念。考虑到扩散模型通常强调实例对象,我们首先设计了一种基于反演的策略,以学习嵌入空间中人和物体之间关系模式的表达。这些学习到的关系嵌入然后作为文本提示,引导扩散模型生成描绘特定交互的图像,并从图像中提取HOI相关的线索,而无需进行大量的微调。受益于以上方法,DIFFUSIONHOI在常规和零样本设置下的三个数据集上都实现了SOTA性能。
🔬 方法详解
问题定义:现有HOI检测方法依赖于大规模视觉-语言模型,但这些模型通过对比学习训练,容易忽略图像中中低层级的视觉信息,导致在组合推理方面表现不佳,难以准确识别复杂的人-物交互关系。
核心思路:DIFFUSIONHOI的核心思路是利用扩散模型强大的生成能力和组合性,将HOI检测问题转化为一个关系驱动的图像生成和特征提取过程。通过学习人和物体之间关系模式的嵌入表示,并将其作为文本提示,引导扩散模型生成包含特定交互的图像,进而提取HOI相关的视觉线索。
技术框架:DIFFUSIONHOI的整体框架包含以下几个主要模块:1)关系嵌入学习模块:通过反演策略学习人和物体之间关系模式的嵌入表示。2)扩散模型引导模块:利用学习到的关系嵌入作为文本提示,引导扩散模型生成包含特定交互的图像。3)HOI特征提取模块:从生成的图像中提取HOI相关的视觉特征。4)HOI检测模块:利用提取的特征进行HOI检测。
关键创新:DIFFUSIONHOI的关键创新在于将扩散模型引入到HOI检测任务中,并设计了一种关系驱动的图像生成和特征提取方法。与传统的对比学习方法相比,DIFFUSIONHOI能够更好地利用图像中的中低层级视觉信息,并具有更强的组合推理能力。此外,该方法无需对扩散模型进行大量微调,降低了计算成本。
关键设计:关系嵌入学习模块采用基于反演的策略,通过优化嵌入向量,使得扩散模型生成的图像能够尽可能地逼近真实图像,从而学习到人和物体之间关系模式的有效表达。扩散模型引导模块采用文本提示的方式,将关系嵌入作为文本输入,引导扩散模型生成包含特定交互的图像。HOI特征提取模块可以采用各种现有的特征提取网络,例如ResNet、ViT等。
🖼️ 关键图片
📊 实验亮点
DIFFUSIONHOI在三个HOI检测数据集上取得了SOTA性能。在常规设置下,相较于现有最佳方法,性能提升显著。在更具挑战性的零样本设置下,DIFFUSIONHOI也表现出强大的泛化能力,大幅超越现有方法。实验结果表明,DIFFUSIONHOI能够有效利用扩散模型的生成能力和组合性,提升HOI检测的准确性和鲁棒性。
🎯 应用场景
DIFFUSIONHOI在人机交互、视频监控、智能安防、机器人视觉等领域具有广泛的应用前景。例如,可以用于识别监控视频中的异常行为,辅助机器人理解人类指令并执行相应的操作,提高人机交互的自然性和智能性。未来,该研究可以进一步扩展到更复杂的场景和交互类型,例如多人交互、复杂环境下的交互等。
📄 摘要(原文)
Prevalent human-object interaction (HOI) detection approaches typically leverage large-scale visual-linguistic models to help recognize events involving humans and objects. Though promising, models trained via contrastive learning on text-image pairs often neglect mid/low-level visual cues and struggle at compositional reasoning. In response, we introduce DIFFUSIONHOI, a new HOI detector shedding light on text-to-image diffusion models. Unlike the aforementioned models, diffusion models excel in discerning mid/low-level visual concepts as generative models, and possess strong compositionality to handle novel concepts expressed in text inputs. Considering diffusion models usually emphasize instance objects, we first devise an inversion-based strategy to learn the expression of relation patterns between humans and objects in embedding space. These learned relation embeddings then serve as textual prompts, to steer diffusion models generate images that depict specific interactions, and extract HOI-relevant cues from images without heavy fine-tuning. Benefited from above, DIFFUSIONHOI achieves SOTA performance on three datasets under both regular and zero-shot setups.