Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning
作者: Buzhen Huang, Chen Li, Chongyang Xu, Dongyue Lu, Jinnan Chen, Yangang Wang, Gim Hee Lee
分类: cs.CV
发布日期: 2025-07-03
💡 一句话要点
提出基于外观和社交距离推理的交互动作重建方法,解决复杂场景下人体交互姿态估计难题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体姿态估计 交互动作重建 社交距离先验 扩散模型 双分支优化 外观建模 物理约束
📋 核心要点
- 现有方法在复杂场景下,由于视觉歧义和遮挡,难以准确估计近距离人体交互姿态,尤其是在区分个体语义方面存在挑战。
- 论文提出双分支优化框架,结合人体外观、社交距离和物理定律约束,重建具有合理身体接触的精确交互动作。
- 实验结果表明,该方法在多个基准测试中优于现有方法,并构建了一个新的伪真值交互数据集,促进相关研究。
📝 摘要(中文)
现有人体姿态估计方法难以从真实场景视频中重建合理的近距离人体交互,原因在于视觉歧义和人际遮挡。即使是最先进的大型基础模型(如SAM)也无法准确区分此类挑战性场景中的人体语义。本文发现,人体外观可以为解决这些障碍提供直接线索。基于此,我们提出了一个双分支优化框架,通过人体外观、社交距离和物理定律约束,重建具有合理身体接触的精确交互动作。具体而言,我们首先训练一个扩散模型来学习人体社交行为和姿态先验知识。然后,将训练好的网络和两个可优化张量整合到一个双分支优化框架中,以重建人体运动和外观。还设计了基于3D高斯、2D关键点和网格穿透的若干约束来辅助优化。凭借社交距离先验和多样化约束,我们的方法能够从复杂环境中捕获的真实场景视频中估计准确的交互。我们进一步构建了一个带有伪真值交互注释的数据集,这可能会促进未来对姿态估计和人类行为理解的研究。在多个基准测试上的实验结果表明,我们的方法优于现有方法。代码和数据可在https://www.buzhenhuang.com/works/CloseApp.html获取。
🔬 方法详解
问题定义:论文旨在解决复杂场景下,由于视觉歧义和人际遮挡导致的近距离人体交互姿态估计不准确问题。现有方法难以有效利用人体外观信息,并且缺乏对人体社交行为和物理约束的建模,导致重建的交互动作不真实、不合理。
核心思路:论文的核心思路是利用人体外观作为关键线索,结合社交距离先验和物理约束,通过优化方法重建准确的交互动作。通过学习人体社交行为的先验知识,并将其融入到优化框架中,可以有效减少视觉歧义带来的影响,提高姿态估计的准确性和合理性。
技术框架:该方法采用双分支优化框架。一个分支负责重建人体运动,另一个分支负责重建人体外观。框架包含以下主要模块:1) 扩散模型:用于学习人体社交行为和姿态先验知识。2) 双分支优化器:用于同时优化人体运动和外观。3) 约束模块:包含基于3D高斯、2D关键点和网格穿透的约束,用于保证重建结果的准确性和物理合理性。
关键创新:该方法最重要的技术创新点在于将人体外观信息融入到交互姿态估计中,并结合社交距离先验和物理约束进行优化。与现有方法相比,该方法能够更有效地利用视觉信息,减少歧义,并生成更真实、更合理的交互动作。此外,使用扩散模型学习社交距离先验也是一个创新点。
关键设计:扩散模型用于学习人体社交距离和姿态的先验分布,具体实现细节未知。优化过程中,使用了多种约束,包括:1) 3D高斯约束:用于保证重建的人体形状与观测到的图像一致。2) 2D关键点约束:用于保证重建的人体姿态与检测到的关键点一致。3) 网格穿透约束:用于避免人体网格之间的不合理穿透。损失函数的设计也至关重要,需要平衡各个约束之间的权重,以获得最佳的重建效果。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
该方法在多个基准测试中取得了优于现有方法的性能。具体提升幅度未知,但摘要中明确指出“outperforms existing approaches”。此外,该论文还构建了一个新的伪真值交互数据集,为未来的研究提供了数据支持。该数据集的构建方法和规模未知,但其贡献在于填补了交互姿态估计领域缺乏高质量数据集的空白。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、游戏开发、智能监控等领域。例如,在虚拟现实中,可以利用该方法重建用户之间的真实交互,提高沉浸感。在智能监控中,可以用于分析人群行为,识别异常事件。此外,该方法还可以用于生成逼真的人体动画,应用于电影制作和广告设计。
📄 摘要(原文)
Due to visual ambiguities and inter-person occlusions, existing human pose estimation methods cannot recover plausible close interactions from in-the-wild videos. Even state-of-the-art large foundation models~(\eg, SAM) cannot accurately distinguish human semantics in such challenging scenarios. In this work, we find that human appearance can provide a straightforward cue to address these obstacles. Based on this observation, we propose a dual-branch optimization framework to reconstruct accurate interactive motions with plausible body contacts constrained by human appearances, social proxemics, and physical laws. Specifically, we first train a diffusion model to learn the human proxemic behavior and pose prior knowledge. The trained network and two optimizable tensors are then incorporated into a dual-branch optimization framework to reconstruct human motions and appearances. Several constraints based on 3D Gaussians, 2D keypoints, and mesh penetrations are also designed to assist the optimization. With the proxemics prior and diverse constraints, our method is capable of estimating accurate interactions from in-the-wild videos captured in complex environments. We further build a dataset with pseudo ground-truth interaction annotations, which may promote future research on pose estimation and human behavior understanding. Experimental results on several benchmarks demonstrate that our method outperforms existing approaches. The code and data are available at https://www.buzhenhuang.com/works/CloseApp.html.