Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs

作者: Zhaolin Cai, Huiyu Duan, Zitong Xu, Fan Li, Zhi Liu, Jing Liu, Wei Shen, Xiongkuo Min, Guangtao Zhai

分类: cs.CV

发布日期: 2025-12-19

💡 一句话要点

提出GRASP-HO框架，通过可微分认知引导多模态LLM实现生成式人-物交互检测。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人-物交互检测 多模态大语言模型 生成式模型 开放词汇 认知引导 零样本学习 混合指导策略

📋 核心要点

现有HOI检测方法受限于预定义的动词集合，难以处理真实场景中复杂多变的交互。
GRASP-HO框架将HOI检测重构为开放词汇生成问题，利用MLLM的知识进行推理。
通过可学习的认知引导模块和混合指导策略，GRASP-HO在封闭集和零样本场景下均表现出色。

📝 摘要（中文）

人-物交互(HOI)检测旨在定位人-物对以及它们之间的交互。现有方法通常基于封闭世界假设，将该任务视为对预定义动词集合的分类问题，难以泛化到真实场景中未见或模糊的长尾交互。虽然最近的多模态大型语言模型(MLLM)拥有开放词汇理解所需的丰富世界知识，但由于微调成本过高，它们与现有的HOI检测器脱节。为了解决这些限制，我们提出了GRASP-HO，一种新颖的生成式推理和可控感知框架，将HOI检测从封闭集分类任务重新定义为开放词汇生成问题。为了连接视觉和认知，我们首先提取混合交互表示，然后设计一个轻量级的可学习认知引导模块(CSC)，将细粒度的视觉证据注入到冻结的MLLM中以进行有效的推理。为了解决基于分类的HOI数据集和开放词汇生成模型之间的监督不匹配问题，我们引入了一种混合指导策略，将语言建模损失和辅助分类损失相结合，从而在不牺牲生成灵活性的情况下实现判别性 grounding。实验表明，该方法在封闭集上实现了最先进的性能，并具有强大的零样本泛化能力，从而实现了一种统一的范例，无缝地桥接了判别性感知和生成式推理，用于开放世界HOI检测。

🔬 方法详解

问题定义：现有HOI检测方法主要基于封闭世界假设，依赖于预定义的动词类别进行分类，无法有效处理真实场景中长尾分布的、未知的或语义模糊的交互行为。此外，直接微调大型多模态语言模型（MLLM）进行HOI检测计算成本过高，难以实现。

核心思路：GRASP-HO的核心思路是将HOI检测任务从传统的封闭集分类问题转化为开放词汇的生成问题，充分利用MLLM强大的语言理解和生成能力。通过将视觉信息有效地注入到MLLM中，引导其生成描述人-物交互的自然语言描述，从而实现对未知交互的识别。

技术框架：GRASP-HO框架主要包含以下几个关键模块：1) 混合交互表示提取模块，用于提取人、物及其交互的视觉特征；2) 可学习认知引导模块(CSC)，用于将提取的视觉特征注入到冻结的MLLM中，引导MLLM进行推理；3) 混合指导策略，结合语言建模损失和辅助分类损失，优化模型训练。

关键创新：GRASP-HO的关键创新在于：1) 将HOI检测任务重新定义为开放词汇生成问题，突破了传统方法的类别限制；2) 提出了轻量级的可学习认知引导模块(CSC)，实现了视觉信息到MLLM的有效传递，避免了对MLLM进行昂贵的微调；3) 设计了混合指导策略，解决了分类数据集与生成模型之间的监督不匹配问题。

关键设计：认知引导模块（CSC）采用轻量级网络结构，通过注意力机制将视觉特征融入MLLM的输入中。混合指导策略结合了语言建模损失（衡量生成文本的流畅性和准确性）和辅助分类损失（利用现有HOI数据集的类别信息），以提升模型的判别能力。具体损失函数的权重比例需要根据实验进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRASP-HO在封闭集HOI检测任务上取得了state-of-the-art的性能，并在零样本HOI检测任务上表现出强大的泛化能力。相较于传统方法，GRASP-HO在多个数据集上均取得了显著的性能提升，验证了其有效性和优越性。具体提升幅度在论文中有详细数据。

🎯 应用场景

GRASP-HO框架在智能监控、人机交互、机器人视觉等领域具有广泛的应用前景。它可以用于识别监控视频中的异常行为，理解人与机器人的交互意图，以及帮助机器人更好地理解和操作周围环境中的物体。该研究为开放世界场景下的人-物交互理解提供了新的思路。

📄 摘要（原文）

Human-object interaction (HOI) detection aims to localize human-object pairs and the interactions between them. Existing methods operate under a closed-world assumption, treating the task as a classification problem over a small, predefined verb set, which struggles to generalize to the long-tail of unseen or ambiguous interactions in the wild. While recent multi-modal large language models (MLLMs) possess the rich world knowledge required for open-vocabulary understanding, they remain decoupled from existing HOI detectors since fine-tuning them is computationally prohibitive. To address these constraints, we propose \GRASP-HO}, a novel Generative Reasoning And Steerable Perception framework that reformulates HOI detection from the closed-set classification task to the open-vocabulary generation problem. To bridge the vision and cognitive, we first extract hybrid interaction representations, then design a lightweight learnable cognitive steering conduit (CSC) module to inject the fine-grained visual evidence into a frozen MLLM for effective reasoning. To address the supervision mismatch between classification-based HOI datasets and open-vocabulary generative models, we introduce a hybrid guidance strategy that coupling the language modeling loss and auxiliary classification loss, enabling discriminative grounding without sacrificing generative flexibility. Experiments demonstrate state-of-the-art closed-set performance and strong zero-shot generalization, achieving a unified paradigm that seamlessly bridges discriminative perception and generative reasoning for open-world HOI detection.

Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册