Learning Human-Object Interaction as Groups

作者: Jiajun Hong, Jianan Wei, Wenguan Wang

分类: cs.CV

发布日期: 2025-10-21

💡 一句话要点

提出GroupHOI框架，从群体交互视角提升人-物交互检测性能

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人-物交互检测 群体交互 上下文建模 自注意力机制 Transformer 目标检测 计算机视觉

📋 核心要点

现有HOI检测方法侧重于人与物体的成对关系，忽略了真实场景中普遍存在的群体交互行为。
GroupHOI框架从几何邻近性和语义相似性出发，将人和物体分组，并在组内聚合上下文信息。
实验表明，GroupHOI在HICO-DET、V-COCO和NVI-DET等数据集上均取得了优异的性能。

📝 摘要（中文）

人-物交互检测（HOI-DET）旨在定位人和物体的配对，并识别它们之间的交互关系。现有方法通常通过自注意力机制在所有检测到的实体间传播信息，或在人和物体之间建立二分图进行消息传递，以聚合上下文线索。然而，它们主要关注成对关系，忽略了真实场景中的交互通常源于集体行为（多个人和物体参与联合活动）。鉴于此，我们从群体视角重新审视关系建模，并提出了GroupHOI，一个基于几何邻近性和语义相似性传播上下文信息的框架。为了利用几何邻近性，人和物体使用基于边界框空间特征的可学习邻近性估计器被分组到不同的集群中。在每个组中，通过自注意力计算软对应关系，以聚合和分派上下文线索。为了结合语义相似性，我们使用来自HO对特征的局部上下文线索增强了基于Transformer的交互解码器。在HICO-DET和V-COCO基准上的大量实验表明，GroupHOI优于最先进的方法。它还在更具挑战性的非语言交互检测（NVI-DET）任务上表现出领先的性能，该任务涉及群体内各种形式的高阶交互。

🔬 方法详解

问题定义：现有的人-物交互检测方法主要关注人与物体之间的成对关系，忽略了真实场景中普遍存在的群体交互行为。这些方法通常使用自注意力机制或二分图来建模人和物体之间的关系，但无法有效地捕捉到多个体参与的复杂交互模式。因此，如何有效地建模群体交互关系，提升HOI检测的性能，是一个亟待解决的问题。

核心思路：GroupHOI的核心思路是从群体视角出发，将人和物体根据几何邻近性和语义相似性进行分组，然后在每个组内聚合上下文信息。通过这种方式，可以有效地捕捉到多个体参与的复杂交互模式，从而提升HOI检测的性能。这种分组的思想模拟了人类理解场景的方式，即首先关注场景中的物体和人的分布，然后根据它们之间的关系推断交互行为。

技术框架：GroupHOI框架主要包含以下几个模块：1) Proximity Estimator：使用可学习的邻近性估计器，基于边界框的空间特征将人和物体分组到不同的集群中。2) Group Interaction Modeling：在每个组内，使用自注意力机制计算软对应关系，以聚合和分派上下文线索。3) Interaction Decoder Enhancement：使用来自HO对特征的局部上下文线索增强基于Transformer的交互解码器。整体流程是先进行目标检测，然后通过Proximity Estimator进行分组，再在每个组内进行交互建模，最后通过增强的Interaction Decoder进行交互关系预测。

关键创新：GroupHOI的关键创新在于从群体视角重新审视人-物交互检测问题，并提出了基于几何邻近性和语义相似性的分组策略。与现有方法相比，GroupHOI能够更有效地捕捉到多个体参与的复杂交互模式，从而提升HOI检测的性能。此外，使用可学习的邻近性估计器和增强的Interaction Decoder也是重要的技术创新。

关键设计：在Proximity Estimator中，使用了基于空间特征的可学习网络来估计人和物体之间的邻近性。在Group Interaction Modeling中，使用了自注意力机制来计算软对应关系，并聚合和分派上下文线索。在Interaction Decoder Enhancement中，使用了来自HO对特征的局部上下文线索来增强Transformer的性能。损失函数方面，使用了标准的交叉熵损失函数来训练模型。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

GroupHOI在HICO-DET数据集上取得了显著的性能提升，超越了现有的state-of-the-art方法。在V-COCO数据集上也表现出优异的性能。此外，GroupHOI在更具挑战性的非语言交互检测（NVI-DET）任务上表现出领先的性能，验证了其在处理复杂交互场景方面的有效性。实验结果表明，从群体视角建模人-物交互关系能够显著提升检测性能。

🎯 应用场景

GroupHOI框架可应用于智能监控、机器人交互、自动驾驶等领域。例如，在智能监控中，可以利用GroupHOI检测人群中的异常行为；在机器人交互中，可以帮助机器人理解人类的意图；在自动驾驶中，可以帮助车辆理解周围环境中的交互行为，从而提高安全性。该研究有助于提升机器对复杂场景的理解能力，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Human-Object Interaction Detection (HOI-DET) aims to localize human-object pairs and identify their interactive relationships. To aggregate contextual cues, existing methods typically propagate information across all detected entities via self-attention mechanisms, or establish message passing between humans and objects with bipartite graphs. However, they primarily focus on pairwise relationships, overlooking that interactions in real-world scenarios often emerge from collective behaviors (multiple humans and objects engaging in joint activities). In light of this, we revisit relation modeling from a group view and propose GroupHOI, a framework that propagates contextual information in terms of geometric proximity and semantic similarity. To exploit the geometric proximity, humans and objects are grouped into distinct clusters using a learnable proximity estimator based on spatial features derived from bounding boxes. In each group, a soft correspondence is computed via self-attention to aggregate and dispatch contextual cues. To incorporate the semantic similarity, we enhance the vanilla transformer-based interaction decoder with local contextual cues from HO-pair features. Extensive experiments on HICO-DET and V-COCO benchmarks demonstrate the superiority of GroupHOI over the state-of-the-art methods. It also exhibits leading performance on the more challenging Nonverbal Interaction Detection (NVI-DET) task, which involves varied forms of higher-order interactions within groups.

Learning Human-Object Interaction as Groups

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理