Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs

📄 arXiv: 2512.17640v1 📥 PDF

作者: Zhaolin Cai, Huiyu Duan, Zitong Xu, Fan Li, Zhi Liu, Jing Liu, Wei Shen, Xiongkuo Min, Guangtao Zhai

分类: cs.CV

发布日期: 2025-12-19


💡 一句话要点

提出GRASP-HO以解决开放词汇人机交互检测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 开放词汇 多模态大语言模型 视觉推理 生成模型 混合指导策略 零样本学习

📋 核心要点

  1. 现有HOI检测方法在封闭集分类框架下,难以处理未见或模糊的交互,导致泛化能力不足。
  2. 本文提出GRASP-HO框架,将HOI检测任务转变为开放词汇生成问题,利用多模态大语言模型进行推理。
  3. 实验结果显示,GRASP-HO在封闭集检测中表现优异,并在零样本任务中展现出强大的泛化能力。

📝 摘要(中文)

人机交互(HOI)检测旨在定位人类与物体之间的交互对。现有方法在封闭世界假设下,将任务视为小型预定义动词集的分类问题,难以推广到未见或模糊的交互。尽管最近的多模态大语言模型(MLLMs)具备丰富的世界知识,但由于微调成本高,它们与现有HOI检测器脱节。为了解决这些限制,本文提出了GRASP-HO框架,将HOI检测从封闭集分类任务重新定义为开放词汇生成问题。通过设计轻量级的可学习认知引导模块(CSC),将细粒度视觉证据注入冻结的MLLM,实现有效推理。实验结果表明,该方法在封闭集性能上达到最先进水平,并展现出强大的零样本泛化能力。

🔬 方法详解

问题定义:本文旨在解决现有HOI检测方法在封闭集分类下的局限性,特别是对未见或模糊交互的泛化能力不足。

核心思路:通过将HOI检测重新定义为开放词汇生成问题,利用多模态大语言模型的丰富知识,结合视觉信息进行推理,从而提高检测的灵活性和准确性。

技术框架:整体架构包括两个主要模块:首先提取混合交互表示,然后通过轻量级的可学习认知引导模块(CSC)将视觉证据注入到冻结的MLLM中,进行有效的推理。

关键创新:最重要的创新点在于将HOI检测从封闭集分类转变为开放词汇生成,利用混合指导策略结合语言建模损失与辅助分类损失,实现了生成灵活性与判别性基础的有效结合。

关键设计:设计了轻量级的CSC模块,能够有效地将视觉信息与语言模型结合,同时采用混合指导策略来解决分类数据集与生成模型之间的监督不匹配问题。实验中使用的损失函数包括语言建模损失和辅助分类损失,以确保模型的有效训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRASP-HO在封闭集检测中达到了最先进的性能,且在零样本任务中展现出显著的泛化能力,超越了现有基线方法,提升幅度可达XX%。

🎯 应用场景

该研究的潜在应用领域包括智能监控、机器人交互和增强现实等场景,能够提升人机交互的智能化水平。通过更好地理解人类与物体之间的交互,未来可实现更自然的交互体验,推动相关技术的发展与应用。

📄 摘要(原文)

Human-object interaction (HOI) detection aims to localize human-object pairs and the interactions between them. Existing methods operate under a closed-world assumption, treating the task as a classification problem over a small, predefined verb set, which struggles to generalize to the long-tail of unseen or ambiguous interactions in the wild. While recent multi-modal large language models (MLLMs) possess the rich world knowledge required for open-vocabulary understanding, they remain decoupled from existing HOI detectors since fine-tuning them is computationally prohibitive. To address these constraints, we propose \GRASP-HO}, a novel Generative Reasoning And Steerable Perception framework that reformulates HOI detection from the closed-set classification task to the open-vocabulary generation problem. To bridge the vision and cognitive, we first extract hybrid interaction representations, then design a lightweight learnable cognitive steering conduit (CSC) module to inject the fine-grained visual evidence into a frozen MLLM for effective reasoning. To address the supervision mismatch between classification-based HOI datasets and open-vocabulary generative models, we introduce a hybrid guidance strategy that coupling the language modeling loss and auxiliary classification loss, enabling discriminative grounding without sacrificing generative flexibility. Experiments demonstrate state-of-the-art closed-set performance and strong zero-shot generalization, achieving a unified paradigm that seamlessly bridges discriminative perception and generative reasoning for open-world HOI detection.