SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance
作者: Qi Xia, Peishan Cong, Ziyi Wang, Yujing Sun, Qin Sun, Xinge Zhu, Mao Ye, Ruigang Yang, Yuexin Ma
分类: cs.CV
发布日期: 2026-04-15
💡 一句话要点
SocialMirror:利用语义和几何引导,从单目视频重建3D人体交互行为
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D人体重建 单目视频 多人交互 扩散模型 语义引导 几何约束 运动捕捉 视觉语言模型
📋 核心要点
- 近距离交互场景下的人体重建面临严重遮挡、运动模糊和时空关系错误等挑战,现有方法难以保证重建的准确性和真实性。
- SocialMirror利用视觉-语言模型提供语义引导,并结合几何约束,通过扩散模型框架实现对遮挡身体的推断和运动轨迹的优化。
- 实验结果表明,SocialMirror在交互式人体网格重建方面达到了最先进的水平,并在未见数据集和真实场景中展现出良好的泛化能力。
📝 摘要(中文)
本文提出SocialMirror,一个基于扩散模型的框架,旨在解决从单目视频中重建近距离交互场景下的人体行为这一难题。该问题由于严重的相互遮挡导致局部运动模糊,时间连续性中断和空间关系错误而极具挑战性。SocialMirror集成了语义和几何线索来有效解决这些问题。具体来说,我们首先利用视觉-语言模型生成的高级交互描述来引导语义引导的运动填充器,从而推断被遮挡的身体并解决局部姿势模糊性。接下来,我们提出了一个序列级的时间细化器,该细化器强制执行平滑、无抖动的运动,同时在采样过程中结合几何约束,以确保合理的接触和空间关系。在多个交互基准上的评估表明,SocialMirror在重建交互式人体网格方面实现了最先进的性能,并在未见数据集和真实场景中表现出强大的泛化能力。代码将在发布后公开。
🔬 方法详解
问题定义:论文旨在解决从单目视频中重建多人近距离交互场景下3D人体网格的问题。现有方法在处理此类场景时,由于严重的相互遮挡、局部运动模糊以及由此导致的时间连续性中断和空间关系错误,重建效果往往不佳,难以保证精度和真实感。
核心思路:论文的核心思路是结合语义信息和几何约束,利用扩散模型强大的生成能力,对被遮挡的身体部位进行合理推断,并对整体运动轨迹进行优化,从而提高重建的准确性和真实性。通过语义信息引导,解决局部运动模糊问题;通过几何约束,保证重建结果的物理合理性。
技术框架:SocialMirror框架主要包含两个阶段:1) 语义引导的运动填充器:利用视觉-语言模型生成的高级交互描述作为语义引导,输入到扩散模型中,用于推断被遮挡的身体部位,并解决局部姿势模糊问题。2) 序列级的时间细化器:在序列层面上对运动轨迹进行优化,通过时间一致性约束保证运动的平滑性,并结合几何约束(如接触和空间关系)保证重建结果的物理合理性。
关键创新:论文的关键创新在于将语义信息和几何约束有效地融入到扩散模型框架中,用于解决多人交互场景下的人体重建问题。具体来说,利用视觉-语言模型提供的高级语义信息,能够有效地推断被遮挡的身体部位,克服了传统方法在遮挡场景下的局限性。同时,结合几何约束,保证了重建结果的物理合理性,提高了重建的真实感。
关键设计:在语义引导的运动填充器中,使用视觉-语言模型(具体模型未知)提取高级交互描述,并将其作为扩散模型的条件输入。在序列级的时间细化器中,设计了时间一致性损失函数,用于保证运动的平滑性。同时,设计了几何约束损失函数,用于保证重建结果的物理合理性,例如,通过惩罚穿透来保证接触的合理性。具体的网络结构和参数设置在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
SocialMirror在多个交互基准测试中取得了state-of-the-art的性能,证明了其在重建交互式人体网格方面的优越性。此外,该方法在未见数据集和真实场景中表现出强大的泛化能力,表明其具有良好的实际应用潜力。具体的性能数据和提升幅度需要在论文中进一步查阅。
🎯 应用场景
该研究成果可广泛应用于增强现实、体育运动分析、人机协作等领域。在增强现实中,可以实现更逼真的虚拟交互体验;在体育运动分析中,可以更准确地分析运动员的动作;在人机协作中,可以实现更自然、更安全的人机交互。
📄 摘要(原文)
Accurately reconstructing human behavior in close-interaction scenarios is crucial for enabling realistic virtual interactions in augmented reality, precise motion analysis in sports, and natural collaborative behavior in human-robot tasks. Reliable reconstruction in these contexts significantly enhances the realism and effectiveness of AI-driven interactive applications. However, human reconstruction from monocular videos in close-interaction scenarios remains challenging due to severe mutual occlusions, leading local motion ambiguity, disrupted temporal continuity and spatial relationship error. In this paper, we propose SocialMirror, a diffusion-based framework that integrates semantic and geometric cues to effectively address these issues. Specifically, we first leverage high-level interaction descriptions generated by a vision-language model to guide a semantic-guided motion infiller, hallucinating occluded bodies and resolving local pose ambiguities. Next, we propose a sequence-level temporal refiner that enforces smooth, jitter-free motions, while incorporating geometric constraints during sampling to ensure plausible contact and spatial relationships. Evaluations on multiple interaction benchmarks show that SocialMirror achieves state-of-the-art performance in reconstructing interactive human meshes, demonstrating strong generalization across unseen datasets and in-the-wild scenarios. The code will be released upon publication.