CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models

作者: Jianjun Gao, Chen Cai, Ruoyu Wang, Wenyang Liu, Kim-Hui Yap, Kratika Garg, Boon-Siew Han

分类: cs.CV, cs.CL

发布日期: 2024-10-21

💡 一句话要点

提出CL-HOI框架，利用视觉大语言模型蒸馏实现无需标注的人-物交互检测

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人-物交互检测 视觉大语言模型 知识蒸馏 跨层蒸馏 弱监督学习

📋 核心要点

现有HOI检测方法依赖大量人工标注，成本高昂且泛化性受限。
CL-HOI框架通过知识蒸馏，将VLLM的图像级理解迁移到实例级HOI检测，无需人工标注。
实验表明，CL-HOI在HICO-DET和V-COCO数据集上优于现有弱监督和VLLM监督方法。

📝 摘要（中文）

人-物交互(HOI)检测受益于视觉语言模型(VLM)的发展，但现有方法通常依赖大量手动标注。视觉大语言模型(VLLM)虽然具备图像层面的交互识别和推理能力，但计算量大，且并非为实例级别的HOI检测设计。为克服这些限制，我们提出了跨层HOI蒸馏(CL-HOI)框架，从VLLM的图像层面理解中蒸馏出实例级别的HOI，无需手动标注。我们的方法包含两个阶段：上下文蒸馏，其中视觉语言翻译器(VLT)将视觉信息转换为语言形式；以及交互蒸馏，其中交互认知网络(ICN)推理空间、视觉和上下文关系。我们设计了对比蒸馏损失，将图像层面的上下文和交互知识从教师模型传递到学生模型，从而实现实例级别的HOI检测。在HICO-DET和V-COCO数据集上的评估表明，我们的CL-HOI超越了现有的弱监督方法和VLLM监督方法，展示了其在无需手动标签的情况下检测HOI的有效性。

🔬 方法详解

问题定义：现有的人-物交互（HOI）检测方法通常需要大量的标注数据，这限制了其应用范围和泛化能力。虽然视觉大语言模型（VLLM）具备一定的HOI识别能力，但它们主要关注图像级别的理解，而非实例级别的精确检测，并且计算成本很高。因此，如何利用VLLM的知识，在无需人工标注的情况下实现高效的实例级HOI检测是一个关键问题。

核心思路：CL-HOI的核心思路是利用知识蒸馏，将VLLM在图像层面的HOI理解能力迁移到专门设计的实例级HOI检测模型。通过将VLLM作为教师模型，引导学生模型学习图像的上下文信息和交互关系，从而在无需人工标注的情况下实现有效的HOI检测。这种方法充分利用了VLLM的先验知识，同时避免了直接使用VLLM进行实例级检测所带来的计算负担。

技术框架：CL-HOI框架主要包含两个阶段：上下文蒸馏和交互蒸馏。在上下文蒸馏阶段，视觉语言翻译器（VLT）将输入的视觉信息转换为语言描述，从而将图像的上下文信息传递给学生模型。在交互蒸馏阶段，交互认知网络（ICN）负责推理图像中物体之间的空间、视觉和上下文关系，从而实现实例级别的HOI检测。整个框架通过对比蒸馏损失函数来指导学生模型的训练，使其能够模仿教师模型的行为，从而获得HOI检测能力。

关键创新：CL-HOI的关键创新在于提出了跨层蒸馏的策略，将VLLM的图像级别理解能力有效地迁移到实例级别的HOI检测任务中。与传统的知识蒸馏方法不同，CL-HOI不仅关注特征级别的匹配，还通过对比学习的方式，促使学生模型学习教师模型的上下文推理能力。此外，CL-HOI框架无需任何人工标注，降低了数据获取的成本，提高了模型的实用性。

关键设计：CL-HOI框架中，VLT的设计至关重要，它需要能够准确地将视觉信息转换为语言描述，以便学生模型能够理解图像的上下文信息。ICN的设计也需要充分考虑物体之间的空间关系、视觉特征和上下文信息，以便能够准确地推理出HOI。对比蒸馏损失函数的设计需要平衡图像层面的上下文信息和实例层面的交互关系，以便学生模型能够同时学习到这两种信息。具体的损失函数包括图像级别的对比损失和实例级别的对比损失，通过调整它们的权重来控制蒸馏的强度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CL-HOI在HICO-DET和V-COCO数据集上取得了显著的性能提升。在HICO-DET数据集上，CL-HOI的性能优于现有的弱监督方法和VLLM监督方法。例如，与最先进的弱监督方法相比，CL-HOI的mAP提升了X%。在V-COCO数据集上，CL-HOI也取得了类似的性能提升，验证了其在HOI检测任务上的有效性。

🎯 应用场景

CL-HOI框架在智能监控、人机交互、机器人导航等领域具有广泛的应用前景。例如，在智能监控中，可以自动检测异常行为，如盗窃、打架等。在人机交互中，可以理解用户的意图，从而提供更自然、更智能的交互体验。在机器人导航中，可以帮助机器人理解周围环境，从而更好地完成任务。

📄 摘要（原文）

Human-object interaction (HOI) detection has seen advancements with Vision Language Models (VLMs), but these methods often depend on extensive manual annotations. Vision Large Language Models (VLLMs) can inherently recognize and reason about interactions at the image level but are computationally heavy and not designed for instance-level HOI detection. To overcome these limitations, we propose a Cross-Level HOI distillation (CL-HOI) framework, which distills instance-level HOIs from VLLMs image-level understanding without the need for manual annotations. Our approach involves two stages: context distillation, where a Visual Linguistic Translator (VLT) converts visual information into linguistic form, and interaction distillation, where an Interaction Cognition Network (ICN) reasons about spatial, visual, and context relations. We design contrastive distillation losses to transfer image-level context and interaction knowledge from the teacher to the student model, enabling instance-level HOI detection. Evaluations on HICO-DET and V-COCO datasets demonstrate that our CL-HOI surpasses existing weakly supervised methods and VLLM supervised methods, showing its efficacy in detecting HOIs without manual labels.

CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理