Pi-HOC: Pairwise 3D Human-Object Contact Estimation

作者: Sravan Chittupalli, Ayush Jain, Dong Huang

分类: cs.CV

发布日期: 2026-04-14

💡 一句话要点

提出Pi-HOC，用于解决多人-多物体交互场景下的3D人体-物体接触估计问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 人体-物体交互 3D接触估计 实例感知 InteractionFormer SMPL人体模型

📋 核心要点

现有方法在多人交互场景和细粒度接触估计方面存在不足，且对物体几何信息有依赖。
Pi-HOC通过单次推理，为每个人-物体对生成专用token，并使用InteractionFormer进行交互建模。
实验表明，Pi-HOC在精度、定位和推理速度上均优于现有方法，并在MMHOI和DAMON数据集上取得了显著提升。

📝 摘要（中文）

本文提出Pi-HOC，一个单次、实例感知的框架，用于预测所有人-物体对的密集3D语义接触。在图像中解析真实世界的人-物体交互是一个多对多的挑战，其中解耦细粒度的并发物理接触尤其困难。现有的语义接触估计方法要么仅限于单人场景，要么除了输入图像外还需要物体几何形状（例如，网格）。当前最先进的方法利用强大的VLM进行类别级别的语义理解，但在多人场景中表现不佳，并且推理效率较低。Pi-HOC检测实例，为每个人-物体（HO）对创建专用token，并使用InteractionFormer对其进行细化。然后，基于SAM的解码器预测每个人-物体对在SMPL人体网格上的密集接触。在MMHOI和DAMON数据集上，Pi-HOC显著提高了精度和定位性能，同时实现了20倍的吞吐量提升。进一步证明，预测的接触可以通过测试时优化算法改进SAM-3D图像到网格的重建，并支持从语言查询中进行参考接触预测，而无需额外的训练。

🔬 方法详解

问题定义：论文旨在解决多人-多物体交互场景下，精确估计3D人体与物体之间接触区域的问题。现有方法主要痛点在于：一是难以处理多人同时与多个物体交互的复杂场景；二是需要预先知道物体的3D几何信息，限制了应用范围；三是基于视觉语言模型的方法在多人场景下推理效率较低。

核心思路：论文的核心思路是设计一个实例感知的框架，能够同时处理多个人和多个物体，并为每个人-物体对显式地建模交互关系。通过为每个人-物体对创建独立的token，并利用InteractionFormer学习这些token之间的交互，从而实现更准确的接触区域预测。

技术框架：Pi-HOC框架主要包含以下几个阶段：1) 实例检测：检测图像中的人和物体实例。2) 人-物体对token生成：为每个人-物体对创建专用的token。3) InteractionFormer：利用InteractionFormer模块，学习和细化人-物体对token之间的交互关系。4) 基于SAM的解码器：使用基于SAM的解码器，预测每个人-物体对在SMPL人体网格上的密集接触区域。

关键创新：Pi-HOC的关键创新在于：1) 提出了一个单次、实例感知的框架，能够同时处理多个人和多个物体之间的交互。2) 引入了InteractionFormer模块，用于显式地建模人-物体对之间的交互关系。3) 利用基于SAM的解码器，实现了对SMPL人体网格上密集接触区域的预测。

关键设计：InteractionFormer模块的设计是关键。具体来说，该模块可能采用了Transformer架构，通过自注意力机制学习人-物体对token之间的依赖关系。损失函数的设计可能包括接触预测的交叉熵损失，以及用于约束SMPL人体姿态的正则化项。基于SAM的解码器利用了SAM强大的分割能力，将分割结果映射到SMPL人体网格上，从而实现密集接触预测。具体的参数设置和网络结构细节在论文中应该有更详细的描述。

🖼️ 关键图片

📊 实验亮点

Pi-HOC在MMHOI和DAMON数据集上取得了显著的性能提升。相较于现有方法，Pi-HOC在精度和定位方面均有显著提高，并且实现了20倍的吞吐量提升。此外，论文还证明，预测的接触信息可以改进SAM-3D图像到网格的重建效果，并支持从语言查询中进行参考接触预测，而无需额外的训练。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、增强现实、机器人控制等领域。例如，在机器人控制中，机器人可以根据预测的人体-物体接触信息，更安全、更有效地与人进行协作。在虚拟现实和增强现实中，可以创建更逼真、更自然的交互体验。此外，该技术还可以用于分析人类行为，例如运动分析和人体工程学评估。

📄 摘要（原文）

Resolving real-world human-object interactions in images is a many-to-many challenge, in which disentangling fine-grained concurrent physical contact is particularly difficult. Existing semantic contact estimation methods are either limited to single-human settings or require object geometries (e.g., meshes) in addition to the input image. Current state-of-the-art leverages powerful VLM for category-level semantics but struggles with multi-human scenarios and scales poorly in inference. We introduce Pi-HOC, a single-pass, instance-aware framework for dense 3D semantic contact prediction of all human-object pairs. Pi-HOC detects instances, creates dedicated human-object (HO) tokens for each pair, and refines them using an InteractionFormer. A SAM-based decoder then predicts dense contact on SMPL human meshes for each human-object pair. On the MMHOI and DAMON datasets, Pi-HOC significantly improves accuracy and localization over state-of-the-art methods while achieving 20x higher throughput. We further demonstrate that predicted contacts improve SAM-3D image-to-mesh reconstruction via a test-time optimization algorithm and enable referential contact prediction from language queries without additional training.

Pi-HOC: Pairwise 3D Human-Object Contact Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理