Towards Unconstrained Human-Object Interaction
作者: Francesco Tonini, Alessandro Conti, Lorenzo Vaquero, Cigdem Beyan, Elisa Ricci
分类: cs.CV
发布日期: 2026-04-15
备注: Accepted to the 20th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
提出U-HOI任务,利用多模态大语言模型解决无约束人-物交互检测问题
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人-物交互检测 多模态大语言模型 无约束学习 视觉语言理解 场景理解
📋 核心要点
- 现有HOI检测模型依赖预定义交互类别,泛化能力受限,难以适应真实场景中复杂多样的交互。
- 利用多模态大语言模型MLLM的强大能力,无需预定义交互类别,直接从图像和文本中理解HOI。
- 定义了新的无约束HOI(U-HOI)任务,并构建了包含测试时推理和语言到图转换的pipeline。
📝 摘要(中文)
人-物交互(HOI)检测是一个长期的计算机视觉问题,旨在预测人和物体之间的交互。目前的HOI模型依赖于训练和推理时预定义的交互词汇表,限制了它们在静态环境中的适用性。随着多模态大语言模型(MLLM)的出现,探索更灵活的交互识别范式成为可能。本文从MLLM的角度重新审视HOI检测,并将其应用于真实场景中的HOI检测。我们定义了无约束HOI(U-HOI)任务,这是一个新颖的HOI领域,消除了训练和推理时对预定义交互列表的要求。我们评估了一系列MLLM在这个设置上的表现,并引入了一个包含测试时推理和语言到图转换的pipeline,以从自由文本中提取结构化交互。我们的研究结果突出了当前HOI检测器的局限性以及MLLM对于U-HOI的价值。代码将在https://github.com/francescotonini/anyhoi上提供。
🔬 方法详解
问题定义:现有HOI检测方法依赖于预定义的交互类别,这限制了它们在真实世界场景中的应用,因为真实世界中的交互是无限的,并且很难事先枚举所有可能的交互类型。这种限制使得模型难以泛化到新的、未见过的交互类型。
核心思路:本文的核心思路是利用多模态大语言模型(MLLM)的强大能力,直接从图像和文本中理解人与物体之间的交互,而无需预先定义交互类别。MLLM能够将视觉信息和语言信息融合在一起,从而更好地理解图像中的场景和关系。
技术框架:该方法包含以下几个主要步骤:1) 使用MLLM对图像进行分析,生成描述图像中人与物体之间交互的自由文本。2) 使用语言到图转换技术,将自由文本转换为结构化的交互图,其中节点表示人和物体,边表示它们之间的交互关系。3) 对生成的交互图进行分析,提取出关键的交互信息。
关键创新:最重要的技术创新点在于提出了无约束HOI(U-HOI)任务,并利用MLLM直接从图像和文本中理解人与物体之间的交互,而无需预先定义交互类别。这与现有HOI检测方法形成了本质区别,现有方法依赖于预定义的交互类别,泛化能力受限。
关键设计:该方法的关键设计包括:1) 选择合适的MLLM,使其能够有效地融合视觉信息和语言信息。2) 设计有效的语言到图转换技术,将自由文本转换为结构化的交互图。3) 设计合适的评估指标,用于评估模型在U-HOI任务上的性能。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了MLLM在U-HOI任务上的有效性,并指出了当前HOI检测器的局限性。虽然没有给出具体的性能数据,但强调了MLLM在处理无约束HOI任务方面的潜力。实验结果表明,MLLM能够有效地理解图像中的人与物体之间的交互,并生成准确的交互描述。
🎯 应用场景
该研究成果可应用于智能监控、机器人交互、自动驾驶等领域。例如,在智能监控中,可以利用该技术自动识别监控视频中人与物体之间的异常交互行为。在机器人交互中,可以使机器人更好地理解人类的意图,从而实现更自然、更智能的人机交互。在自动驾驶中,可以帮助自动驾驶系统更好地理解周围环境,从而提高驾驶安全性。
📄 摘要(原文)
Human-Object Interaction (HOI) detection is a longstanding computer vision problem concerned with predicting the interaction between humans and objects. Current HOI models rely on a vocabulary of interactions at training and inference time, limiting their applicability to static environments. With the advent of Multimodal Large Language Models (MLLMs), it has become feasible to explore more flexible paradigms for interaction recognition. In this work, we revisit HOI detection through the lens of MLLMs and apply them to in-the-wild HOI detection. We define the Unconstrained HOI (U-HOI) task, a novel HOI domain that removes the requirement for a predefined list of interactions at both training and inference. We evaluate a range of MLLMs on this setting and introduce a pipeline that includes test-time inference and language-to-graph conversion to extract structured interactions from free-form text. Our findings highlight the limitations of current HOI detectors and the value of MLLMs for U-HOI. Code will be available at https://github.com/francescotonini/anyhoi