UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space

📄 arXiv: 2511.15046v1 📥 PDF

作者: Panqi Yang, Haodong Jing, Nanning Zheng, Yongqiang Ma

分类: cs.CV, cs.AI

发布日期: 2025-11-19

备注: Accepted by AAAI 2026,9 pages, 4 figures


💡 一句话要点

UniHOI:通过统一Token空间实现统一的人-物交互理解

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互理解 HOI检测 HOI生成 统一Token空间 半监督学习

📋 核心要点

  1. 传统HOI检测和生成任务分离,限制了对交互的全面理解和知识共享。
  2. UniHOI通过统一的token空间联合建模检测和生成,实现知识共享和泛化能力提升。
  3. UniHOI在HOI检测和生成任务上均取得SOTA性能,尤其在长尾检测和开放词汇生成上提升显著。

📝 摘要(中文)

在人-物交互(HOI)领域,检测和生成是两个通常被独立处理的对偶任务,这阻碍了对交互的全面理解。为了解决这个问题,我们提出了UniHOI,它通过统一的token空间联合建模HOI检测和生成,从而有效地促进知识共享并增强泛化能力。具体来说,我们引入了一个对称的交互感知注意力模块和一个统一的半监督学习范式,即使在有限的标注下也能实现图像和交互语义之间的有效双向映射。大量的实验表明,UniHOI在HOI检测和生成方面都达到了最先进的性能。特别地,UniHOI在长尾HOI检测上的准确率提高了4.9%,在开放词汇生成任务上的交互指标提高了42.0%。

🔬 方法详解

问题定义:现有的人-物交互(HOI)理解方法通常将HOI检测和HOI生成视为两个独立的任务,分别进行建模和优化。这种分离的方式忽略了两个任务之间的内在联系,阻碍了知识的共享和迁移,导致模型泛化能力受限,尤其是在数据稀疏或长尾分布的情况下表现不佳。

核心思路:UniHOI的核心思想是将HOI检测和HOI生成统一到一个共享的token空间中,从而实现知识的共享和迁移。通过联合建模,模型可以同时学习HOI的视觉特征和语义表示,从而提高对HOI的理解和泛化能力。这种统一的视角使得模型能够更好地处理长尾分布和开放词汇等挑战。

技术框架:UniHOI的整体框架包含以下几个主要模块:1) 图像编码器:用于提取输入图像的视觉特征。2) 交互感知注意力模块:用于建模人和物体之间的交互关系,生成交互特征。3) 统一的token空间:用于表示HOI检测和生成任务的语义信息。4) HOI检测头:用于预测HOI实例的类别和位置。5) HOI生成器:用于生成HOI的文本描述。6) 半监督学习模块:利用未标注数据来增强模型的泛化能力。

关键创新:UniHOI的关键创新在于:1) 提出了一个对称的交互感知注意力模块,能够有效地建模人和物体之间的交互关系。2) 引入了一个统一的token空间,用于表示HOI检测和生成任务的语义信息,从而实现知识的共享和迁移。3) 设计了一个统一的半监督学习范式,利用未标注数据来增强模型的泛化能力。

关键设计:UniHOI的关键设计包括:1) 对称的交互感知注意力模块,采用自注意力机制来建模人和物体之间的交互关系,并使用对称结构来保证人和物体之间的信息传递。2) 统一的token空间,使用Transformer架构来学习HOI检测和生成任务的语义表示,并使用共享的词汇表来保证知识的共享。3) 统一的半监督学习范式,使用一致性正则化来约束模型在标注数据和未标注数据上的预测结果一致。

📊 实验亮点

UniHOI在HOI检测和生成任务上均取得了显著的性能提升。在长尾HOI检测任务上,UniHOI的准确率提高了4.9%。在开放词汇生成任务上,UniHOI的交互指标提高了42.0%。这些结果表明,UniHOI能够有效地促进知识共享,增强泛化能力,从而提高对HOI的理解。

🎯 应用场景

UniHOI的研究成果可应用于智能监控、人机交互、机器人导航等领域。例如,在智能监控中,UniHOI可以用于识别异常的人-物交互行为,从而提高安全防范能力。在人机交互中,UniHOI可以用于理解用户的意图,从而提供更自然、更智能的交互体验。在机器人导航中,UniHOI可以用于感知周围环境,从而实现更安全、更可靠的导航。

📄 摘要(原文)

In the field of human-object interaction (HOI), detection and generation are two dual tasks that have traditionally been addressed separately, hindering the development of comprehensive interaction understanding. To address this, we propose UniHOI, which jointly models HOI detection and generation via a unified token space, thereby effectively promoting knowledge sharing and enhancing generalization. Specifically, we introduce a symmetric interaction-aware attention module and a unified semi-supervised learning paradigm, enabling effective bidirectional mapping between images and interaction semantics even under limited annotations. Extensive experiments demonstrate that UniHOI achieves state-of-the-art performance in both HOI detection and generation. Specifically, UniHOI improves accuracy by 4.9% on long-tailed HOI detection and boosts interaction metrics by 42.0% on open-vocabulary generation tasks.