MMHOI: Modeling Complex 3D Multi-Human Multi-Object Interactions

📄 arXiv: 2510.07828v3 📥 PDF

作者: Kaen Kogashi, Anoop Cherian, Meng-Yu Jennifer Kuo

分类: cs.CV

发布日期: 2025-10-09 (更新: 2025-12-04)

备注: Accepted to WACV 2026


💡 一句话要点

提出MMHOI数据集和MMHOI-Net,用于建模复杂3D多人多物交互

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互 3D场景理解 多人交互 Transformer网络 数据集构建

📋 核心要点

  1. 现有3D人-物交互数据集难以捕捉真实场景中复杂的多人多物交互,限制了相关研究的进展。
  2. 提出MMHOI数据集和MMHOI-Net,利用结构化双patch表示建模对象及其交互,并结合动作识别提升交互预测。
  3. 实验表明,MMHOI-Net在MMHOI和CORE4D数据集上均取得了state-of-the-art的性能,尤其在准确性和重建质量上。

📝 摘要(中文)

真实场景通常包含多人与多物体的因果、目标导向或协作交互。现有的3D人-物交互(HOI)基准测试仅考虑了这些复杂交互的一小部分。为了弥补这一差距,我们提出了MMHOI——一个大规模的多人多物交互数据集,包含来自12个日常场景的图像。MMHOI为每个人和物体提供完整的3D形状和姿势标注,以及78个动作类别和14个交互特定身体部位的标签,为下一代HOI研究提供了一个全面的测试平台。基于MMHOI,我们提出了MMHOI-Net,一个端到端的基于Transformer的神经网络,用于联合估计人-物3D几何形状、它们的交互和相关动作。我们框架的一个关键创新是用于建模对象及其交互的结构化双patch表示,结合动作识别来增强交互预测。在MMHOI和最近提出的CORE4D数据集上的实验表明,我们的方法在多HOI建模中实现了最先进的性能,在准确性和重建质量方面表现出色。MMHOI数据集可在https://zenodo.org/records/17711786公开获取。

🔬 方法详解

问题定义:论文旨在解决现有3D人-物交互(HOI)数据集无法充分建模真实场景中复杂的多人多物交互的问题。现有方法通常只关注单人与单物的交互,忽略了多人之间的协作、物体之间的关系以及交互的因果性和目标导向性。这导致模型在真实场景中的泛化能力较差。

核心思路:论文的核心思路是构建一个大规模、标注全面的多人多物交互数据集MMHOI,并设计一个端到端的神经网络MMHOI-Net来联合估计人-物3D几何形状、交互和动作。通过引入结构化的双patch表示来建模对象及其交互,并结合动作识别来增强交互预测。这种设计旨在更全面地捕捉复杂交互的本质,提高模型的准确性和鲁棒性。

技术框架:MMHOI-Net是一个基于Transformer的端到端神经网络,其整体架构包含以下几个主要模块:1) 特征提取模块:用于提取图像中人和物体的视觉特征。2) 3D几何估计模块:用于估计人和物体的3D形状和姿势。3) 交互建模模块:使用结构化的双patch表示来建模对象及其交互。4) 动作识别模块:用于识别人的动作。5) 交互预测模块:结合视觉特征、3D几何信息和动作信息来预测人-物交互。

关键创新:论文最重要的技术创新点在于提出了结构化的双patch表示来建模对象及其交互。传统的HOI建模方法通常将人和物体视为独立的个体,忽略了它们之间的关系。双patch表示将每个物体表示为两个patch:一个表示物体的整体外观,另一个表示物体与人交互的区域。这种表示方法能够更有效地捕捉交互的局部特征,提高交互预测的准确性。

关键设计:在MMHOI-Net中,双patch表示通过Transformer网络进行处理,以学习patch之间的关系。损失函数包括3D几何重建损失、动作识别损失和交互预测损失。网络结构和参数设置经过了大量的实验验证,以达到最佳性能。具体参数设置细节在论文中有详细描述。

📊 实验亮点

MMHOI-Net在MMHOI数据集上取得了显著的性能提升,在交互预测准确率和3D几何重建质量方面均优于现有方法。此外,该方法在CORE4D数据集上也表现出良好的泛化能力,证明了其在复杂HOI建模方面的有效性。具体性能数据在论文的实验部分有详细展示。

🎯 应用场景

该研究成果可应用于机器人、虚拟现实、自动驾驶等领域。例如,机器人可以利用该技术理解人类的意图,从而更好地与人类协作完成任务。在虚拟现实中,该技术可以创建更逼真的交互体验。自动驾驶系统可以利用该技术识别行人与周围物体的交互,从而做出更安全的决策。

📄 摘要(原文)

Real-world scenes often feature multiple humans interacting with multiple objects in ways that are causal, goal-oriented, or cooperative. Yet existing 3D human-object interaction (HOI) benchmarks consider only a fraction of these complex interactions. To close this gap, we present MMHOI -- a large-scale, Multi-human Multi-object Interaction dataset consisting of images from 12 everyday scenarios. MMHOI offers complete 3D shape and pose annotations for every person and object, along with labels for 78 action categories and 14 interaction-specific body parts, providing a comprehensive testbed for next-generation HOI research. Building on MMHOI, we present MMHOI-Net, an end-to-end transformer-based neural network for jointly estimating human-object 3D geometries, their interactions, and associated actions. A key innovation in our framework is a structured dual-patch representation for modeling objects and their interactions, combined with action recognition to enhance the interaction prediction. Experiments on MMHOI and the recently proposed CORE4D datasets demonstrate that our approach achieves state-of-the-art performance in multi-HOI modeling, excelling in both accuracy and reconstruction quality. The MMHOI dataset is publicly available at https://zenodo.org/records/17711786.