Learning Human-Object Interaction for 3D Human Pose Estimation from LiDAR Point Clouds

📄 arXiv: 2603.16343v1 📥 PDF

作者: Daniel Sungho Jung, Dohee Cho, Kyoung Mu Lee

分类: cs.CV

发布日期: 2026-03-17

备注: Project page: https://hoil-release.github.io/


💡 一句话要点

提出HOIL框架,利用人-物交互学习提升LiDAR点云3D人体姿态估计精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 3D人体姿态估计 LiDAR点云 人-物交互 对比学习 点云处理 自动驾驶 类别不平衡

📋 核心要点

  1. 现有方法忽略了人-物交互信息,导致在LiDAR点云中进行3D人体姿态估计时,交互区域的关键点预测容易出错。
  2. HOIL框架通过人-物交互感知对比学习(HOICL)和接触感知的部分引导池化(CPPool)来解决空间模糊性和类别不平衡问题。
  3. HOIL框架利用人-物交互信息,有效解决了交互区域中的空间模糊性和类别不平衡问题,提升了3D人体姿态估计的精度。

📝 摘要(中文)

本文提出了一种用于从LiDAR点云中进行鲁棒3D人体姿态估计的人-物交互学习(HOIL)框架。现有方法在很大程度上忽略了利用人-物交互来构建鲁棒的3D人体姿态估计框架的潜力。人-物交互引入了人与物体点之间的空间模糊性,这通常导致交互区域中错误的3D人体关键点预测。交互和非交互身体部位之间的点数存在严重的类别不平衡,在LiDAR数据中,手和脚等交互频繁区域的观测稀疏。为了解决这些挑战,本文提出了人-物交互感知对比学习(HOICL),有效地增强了人与物体点之间,特别是在交互区域中的特征区分。引入了接触感知的部分引导池化(CPPool),通过压缩过度表示的点,同时保留来自交互身体部位的信息点,自适应地重新分配表示能力。此外,本文还提出了一个可选的基于接触的临时细化,使用随时间的接触线索来细化错误的每帧关键点估计。

🔬 方法详解

问题定义:现有方法在LiDAR点云中进行3D人体姿态估计时,忽略了人-物交互信息,导致在交互区域(如手持物体)的关键点预测精度下降。这是由于人与物体点云在空间上存在模糊性,且交互区域的点云通常比较稀疏,造成类别不平衡。

核心思路:论文的核心思路是利用人-物交互信息来提升3D人体姿态估计的鲁棒性。具体来说,通过对比学习来区分人和物体的点云特征,并使用部分引导池化来缓解类别不平衡问题。

技术框架:HOIL框架包含以下几个主要模块:1) 特征提取模块:从LiDAR点云中提取人和物体的特征。2) 人-物交互感知对比学习(HOICL)模块:通过对比学习增强人与物体点云特征的区分度,尤其是在交互区域。3) 接触感知的部分引导池化(CPPool)模块:自适应地重新分配表示能力,压缩过度表示的点,同时保留来自交互身体部位的信息点。4) 3D人体姿态估计模块:基于提取的特征和交互信息,预测3D人体关键点。5) 可选的基于接触的临时细化模块:利用时间上的接触信息来进一步优化关键点估计。

关键创新:论文的关键创新在于:1) 提出了人-物交互感知对比学习(HOICL),有效地解决了人与物体点云之间的空间模糊性问题。2) 提出了接触感知的部分引导池化(CPPool),缓解了交互区域点云稀疏导致的类别不平衡问题。3) 将人-物交互信息融入到3D人体姿态估计框架中,提升了整体的鲁棒性和精度。

关键设计:HOICL模块使用对比损失函数来拉近同类点云特征的距离,推远不同类点云特征的距离。CPPool模块根据接触概率自适应地调整池化权重,使得交互区域的点云能够得到更多的关注。可选的基于接触的临时细化模块利用卡尔曼滤波等方法,根据时间上的接触信息来平滑关键点估计结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的HOIL框架在LiDAR点云3D人体姿态估计任务上取得了显著的性能提升。具体实验数据未知,但摘要强调该方法有效解决了空间模糊性和类别不平衡问题,表明HOIL在交互场景下具有更强的鲁棒性和更高的精度。代码将会开源。

🎯 应用场景

该研究成果可应用于自动驾驶领域,提升车辆对行人的感知能力,尤其是在行人与周围物体(如手推车、自行车)交互的复杂场景下,从而提高行人安全。此外,该技术还可应用于机器人交互、智能监控等领域,实现更精准的人体姿态识别和行为理解。

📄 摘要(原文)

Understanding humans from LiDAR point clouds is one of the most critical tasks in autonomous driving due to its close relationships with pedestrian safety, yet it remains challenging in the presence of diverse human-object interactions and cluttered backgrounds. Nevertheless, existing methods largely overlook the potential of leveraging human-object interactions to build robust 3D human pose estimation frameworks. There are two major challenges that motivate the incorporation of human-object interaction. First, human-object interactions introduce spatial ambiguity between human and object points, which often leads to erroneous 3D human keypoint predictions in interaction regions. Second, there exists severe class imbalance in the number of points between interacting and non-interacting body parts, with the interaction-frequent regions such as hand and foot being sparsely observed in LiDAR data. To address these challenges, we propose a Human-Object Interaction Learning (HOIL) framework for robust 3D human pose estimation from LiDAR point clouds. To mitigate the spatial ambiguity issue, we present human-object interaction-aware contrastive learning (HOICL) that effectively enhances feature discrimination between human and object points, particularly in interaction regions. To alleviate the class imbalance issue, we introduce contact-aware part-guided pooling (CPPool) that adaptively reallocates representational capacity by compressing overrepresented points while preserving informative points from interacting body parts. In addition, we present an optional contact-based temporal refinement that refines erroneous per-frame keypoint estimates using contact cues over time. As a result, our HOIL effectively leverages human-object interaction to resolve spatial ambiguity and class imbalance in interaction regions. Codes will be released.