InterMesh: Explicit Interaction-Aware End-to-End Multi-Person Human Mesh Recovery

📄 arXiv: 2605.04554v1 📥 PDF

作者: Kaili Zheng, Kaiwen Wang, Xun Zhu, Chenyi Guo, Ji Wu

分类: cs.CV

发布日期: 2026-05-06

备注: 16 pages, 11 figures


💡 一句话要点

InterMesh:显式交互感知的端到端多人人体网格重建

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人体网格重建 人-物交互 多人姿态估计 深度学习 显式建模

📋 核心要点

  1. 现有端到端多人人体网格重建方法缺乏对人与环境及人与人之间交互的显式建模。
  2. InterMesh通过人-物交互检测器,利用结构化的交互语义丰富查询表示,从而更准确地估计姿势和形状。
  3. 实验表明,InterMesh在CMU Panoptic和Hi4D等数据集上显著优于现有方法,尤其是在复杂交互场景中。

📝 摘要(中文)

现有人体通常与周围环境交互。现有的端到端多人人体网格重建方法通常基于DETR框架,通过跨所有人体查询的自注意力来捕获人与人之间的关系。然而,这些方法仅隐式地建模交互,并且缺乏对人如何与物体以及彼此交互的显式推理。本文提出了InterMesh,一个简单而有效的框架,它将人与环境的交互信息显式地融入到人体网格重建流程中。通过利用人-物交互检测器,InterMesh利用结构化的交互语义丰富了查询表示,从而实现更准确的姿势和形状估计。我们设计了轻量级的模块,即上下文交互编码器和交互引导的细化器,以最小的开销将这些特征集成到现有的HMR架构中。我们通过在3DPW、MuPoTS、CMU Panoptic、Hi4D和CHI3D数据集上的大量实验验证了我们的方法,证明了相对于最先进方法的显著改进。值得注意的是,InterMesh在CMU Panoptic上将MPJPE降低了9.9%,在Hi4D上降低了8.2%,突出了其在复杂的人-物和人际交互场景中的有效性。

🔬 方法详解

问题定义:现有的端到端多人人体网格重建方法,特别是基于DETR框架的方法,主要通过自注意力机制隐式地建模人与人之间的关系。这种隐式建模方式忽略了人与环境以及人与人之间交互的显式信息,导致在复杂交互场景下人体姿态和形状估计的精度不足。

核心思路:InterMesh的核心思路是显式地将人与环境的交互信息融入到人体网格重建流程中。通过引入人-物交互检测器,提取结构化的交互语义,并将其用于丰富人体查询的表示,从而使模型能够更好地理解和推理复杂场景中的人体姿态。

技术框架:InterMesh框架主要包含以下几个关键模块:1) 人-物交互检测器:用于检测场景中人与物体之间的交互关系。2) 上下文交互编码器:将检测到的交互信息编码成特征向量,用于增强人体查询的表示。3) 交互引导的细化器:利用交互特征对人体网格进行细化,从而提高姿态和形状估计的精度。整体流程是从输入图像开始,首先利用人-物交互检测器提取交互信息,然后通过上下文交互编码器将交互信息融入到人体查询中,最后利用交互引导的细化器对人体网格进行优化。

关键创新:InterMesh的关键创新在于显式地建模人与环境的交互信息,并将其融入到人体网格重建流程中。与现有方法相比,InterMesh能够更好地理解和推理复杂场景中的人体姿态,从而提高重建精度。此外,InterMesh设计的上下文交互编码器和交互引导的细化器是轻量级的模块,可以很容易地集成到现有的HMR架构中。

关键设计:InterMesh的关键设计包括:1) 人-物交互检测器的选择:论文中使用了现有的HOI检测器,可以根据具体应用场景选择不同的检测器。2) 上下文交互编码器的结构:论文中设计了一个轻量级的编码器,用于将交互信息编码成特征向量。3) 交互引导的细化器的结构:论文中设计了一个细化器,利用交互特征对人体网格进行优化。具体的参数设置和网络结构在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InterMesh在多个数据集上取得了显著的性能提升。在CMU Panoptic数据集上,MPJPE降低了9.9%,在Hi4D数据集上降低了8.2%。这些结果表明,InterMesh在复杂的人-物和人际交互场景中具有很强的竞争力,能够有效地提高人体网格重建的精度。

🎯 应用场景

InterMesh在虚拟现实、增强现实、人机交互、智能监控、自动驾驶等领域具有广泛的应用前景。它可以用于创建更逼真和自然的虚拟环境,提高人机交互的效率和安全性,以及实现更智能的监控和自动驾驶系统。通过准确地重建场景中多人的人体网格,InterMesh能够为这些应用提供更可靠的基础。

📄 摘要(原文)

Humans constantly interact with their surroundings. Existing end-to-end multi-person human mesh recovery methods, typically based on the DETR framework, capture inter-human relationships through self-attention across all human queries. However, these approaches model interactions only implicitly and lack explicit reasoning about how humans interact with objects and with each other. In this paper, we propose InterMesh, a simple yet effective framework that explicitly incorporates human-environment interaction information into human mesh recovery pipeline. By leveraging a human-object interaction detector, InterMesh enriches query representations with structured interaction semantics, enabling more accurate pose and shape estimation. We design lightweight modules, Contextual Interaction Encoder and Interaction-Guided Refiner, to integrate these features into existing HMR architectures with minimal overhead. We validate our approach through extensive experiments on 3DPW, MuPoTS, CMU Panoptic, Hi4D, and CHI3D datasets, demonstrating remarkable improvements over state-of-the-art methods. Notably, InterMesh reduces MPJPE by 9.9% on CMU Panoptic and 8.2% on Hi4D, highlighting its effectiveness in scenarios with complex human-object and inter-human interactions.