Pi-HOC: Pairwise 3D Human-Object Contact Estimation

📄 arXiv: 2604.12923v1 📥 PDF

作者: Sravan Chittupalli, Ayush Jain, Dong Huang

分类: cs.CV

发布日期: 2026-04-14


💡 一句话要点

提出Pi-HOC,用于解决多人-多物体交互场景下的3D人体-物体接触估计问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体-物体交互 3D接触估计 实例感知 InteractionFormer SMPL人体模型

📋 核心要点

  1. 现有方法在多人交互场景和细粒度接触估计方面存在不足,且对物体几何信息有依赖。
  2. Pi-HOC通过单次推理,为每个人-物体对生成专用token,并使用InteractionFormer进行交互建模。
  3. 实验表明,Pi-HOC在精度、定位和推理速度上均优于现有方法,并在MMHOI和DAMON数据集上取得了显著提升。

📝 摘要(中文)

本文提出Pi-HOC,一个单次、实例感知的框架,用于预测所有人-物体对的密集3D语义接触。在图像中解析真实世界的人-物体交互是一个多对多的挑战,其中解耦细粒度的并发物理接触尤其困难。现有的语义接触估计方法要么仅限于单人场景,要么除了输入图像外还需要物体几何形状(例如,网格)。当前最先进的方法利用强大的VLM进行类别级别的语义理解,但在多人场景中表现不佳,并且推理效率较低。Pi-HOC检测实例,为每个人-物体(HO)对创建专用token,并使用InteractionFormer对其进行细化。然后,基于SAM的解码器预测每个人-物体对在SMPL人体网格上的密集接触。在MMHOI和DAMON数据集上,Pi-HOC显著提高了精度和定位性能,同时实现了20倍的吞吐量提升。进一步证明,预测的接触可以通过测试时优化算法改进SAM-3D图像到网格的重建,并支持从语言查询中进行参考接触预测,而无需额外的训练。

🔬 方法详解

问题定义:论文旨在解决多人-多物体交互场景下,精确估计3D人体与物体之间接触区域的问题。现有方法主要痛点在于:一是难以处理多人同时与多个物体交互的复杂场景;二是需要预先知道物体的3D几何信息,限制了应用范围;三是基于视觉语言模型的方法在多人场景下推理效率较低。

核心思路:论文的核心思路是设计一个实例感知的框架,能够同时处理多个人和多个物体,并为每个人-物体对显式地建模交互关系。通过为每个人-物体对创建独立的token,并利用InteractionFormer学习这些token之间的交互,从而实现更准确的接触区域预测。

技术框架:Pi-HOC框架主要包含以下几个阶段:1) 实例检测:检测图像中的人和物体实例。2) 人-物体对token生成:为每个人-物体对创建专用的token。3) InteractionFormer:利用InteractionFormer模块,学习和细化人-物体对token之间的交互关系。4) 基于SAM的解码器:使用基于SAM的解码器,预测每个人-物体对在SMPL人体网格上的密集接触区域。

关键创新:Pi-HOC的关键创新在于:1) 提出了一个单次、实例感知的框架,能够同时处理多个人和多个物体之间的交互。2) 引入了InteractionFormer模块,用于显式地建模人-物体对之间的交互关系。3) 利用基于SAM的解码器,实现了对SMPL人体网格上密集接触区域的预测。

关键设计:InteractionFormer模块的设计是关键。具体来说,该模块可能采用了Transformer架构,通过自注意力机制学习人-物体对token之间的依赖关系。损失函数的设计可能包括接触预测的交叉熵损失,以及用于约束SMPL人体姿态的正则化项。基于SAM的解码器利用了SAM强大的分割能力,将分割结果映射到SMPL人体网格上,从而实现密集接触预测。具体的参数设置和网络结构细节在论文中应该有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Pi-HOC在MMHOI和DAMON数据集上取得了显著的性能提升。相较于现有方法,Pi-HOC在精度和定位方面均有显著提高,并且实现了20倍的吞吐量提升。此外,论文还证明,预测的接触信息可以改进SAM-3D图像到网格的重建效果,并支持从语言查询中进行参考接触预测,而无需额外的训练。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、增强现实、机器人控制等领域。例如,在机器人控制中,机器人可以根据预测的人体-物体接触信息,更安全、更有效地与人进行协作。在虚拟现实和增强现实中,可以创建更逼真、更自然的交互体验。此外,该技术还可以用于分析人类行为,例如运动分析和人体工程学评估。

📄 摘要(原文)

Resolving real-world human-object interactions in images is a many-to-many challenge, in which disentangling fine-grained concurrent physical contact is particularly difficult. Existing semantic contact estimation methods are either limited to single-human settings or require object geometries (e.g., meshes) in addition to the input image. Current state-of-the-art leverages powerful VLM for category-level semantics but struggles with multi-human scenarios and scales poorly in inference. We introduce Pi-HOC, a single-pass, instance-aware framework for dense 3D semantic contact prediction of all human-object pairs. Pi-HOC detects instances, creates dedicated human-object (HO) tokens for each pair, and refines them using an InteractionFormer. A SAM-based decoder then predicts dense contact on SMPL human meshes for each human-object pair. On the MMHOI and DAMON datasets, Pi-HOC significantly improves accuracy and localization over state-of-the-art methods while achieving 20x higher throughput. We further demonstrate that predicted contacts improve SAM-3D image-to-mesh reconstruction via a test-time optimization algorithm and enable referential contact prediction from language queries without additional training.