Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects
作者: Suhas Gopal, Rishabh Dabral, Vladislav Golyanik, Christian Theobalt
分类: cs.CV
发布日期: 2025-02-19
备注: 17 pages, 20 figures and 6 tables; International Conference on 3D Vision (3DV) 2025; Project page: https://vcai.mpi-inf.mpg.de/projects/separable-recon/
💡 一句话要点
提出Betsu-Betsu:一种多视角可分离的交互物体3D重建神经隐式方法
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 多视角重建 神经隐式表示 物体分离 人机交互 三维重建
📋 核心要点
- 现有方法难以从多视角图像中分离重建交互物体的3D模型,主要挑战在于严重的遮挡和交互边界的不确定性。
- Betsu-Betsu方法通过神经隐式表示学习物体的几何和外观,并引入alpha混合正则化确保物体分离,避免穿透。
- 实验表明,该方法在包含人与物体交互的新数据集以及武术场景中,显著提升了3D重建和新视角合成的质量。
📝 摘要(中文)
本文研究了从多视角RGB图像中可分离地重建多个物体3D形状的问题,旨在为两个物体生成各自独立的3D模型,并清晰地分离它们。由于严重的相互遮挡以及物体交互边界处存在的不确定性,这项任务极具挑战性。本文提出了一种新的神经隐式方法,该方法能够重建紧密交互的两个物体的几何形状和外观,同时在3D空间中分离它们,避免表面相互穿透,并实现观察场景的新视角合成。该框架是端到端可训练的,并使用一种新的alpha混合正则化进行监督,以确保即使在极端遮挡下,两个几何体也能很好地分离。我们的重建方法是无标记的,可以应用于刚性和铰接物体。我们引入了一个包含人和物体之间紧密交互的新数据集,并在人类进行武术的两个场景中进行了评估。实验结果表明,与适用于我们设置的几种现有方法相比,我们的框架在3D和新视角合成指标方面都具有有效性和显著改进。
🔬 方法详解
问题定义:论文旨在解决从多视角RGB图像中重建两个相互交互物体的可分离3D模型的问题。现有方法难以处理物体间的严重遮挡和交互边界的不确定性,导致重建结果中物体表面相互穿透,无法清晰分离。
核心思路:论文的核心思路是使用神经隐式表示来建模物体的几何形状和外观,并引入一种新的alpha混合正则化方法来确保两个物体在3D空间中能够清晰地分离,避免表面穿透。这种方法允许端到端训练,并能够处理刚性和铰接物体。
技术框架:该框架主要包含以下几个模块:1) 多视角RGB图像输入;2) 神经隐式表示网络,用于学习每个物体的几何形状和外观;3) alpha混合正则化模块,用于强制物体分离;4) 渲染模块,用于生成新视角的图像。整个框架通过最小化重建损失和alpha混合正则化损失进行端到端训练。
关键创新:最重要的技术创新点是alpha混合正则化方法。该方法通过在渲染过程中使用alpha值来控制每个物体对最终图像的贡献,并强制alpha值在物体交互区域趋于0或1,从而确保物体分离。与现有方法相比,该方法能够更有效地处理遮挡和交互边界的不确定性。
关键设计:alpha混合正则化损失函数的设计是关键。该损失函数鼓励每个像素只属于一个物体,从而避免表面穿透。具体来说,对于每个像素,损失函数惩罚两个物体的alpha值都大于0的情况。此外,网络结构的选择也很重要,需要选择能够有效学习复杂几何形状和外观的神经隐式表示网络,例如SIREN或NeRF。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在包含人与物体交互的新数据集以及武术场景中,显著提升了3D重建和新视角合成的质量。与现有方法相比,该方法在3D IoU、Chamfer Distance等指标上均有显著提升,并且能够生成更清晰、更准确的3D模型。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、增强现实、机器人操作等领域。例如,可以用于重建人与物体交互的3D场景,从而实现更自然的人机交互体验。此外,该方法还可以用于机器人操作,帮助机器人理解和操作周围的物体。
📄 摘要(原文)
Separable 3D reconstruction of multiple objects from multi-view RGB images -- resulting in two different 3D shapes for the two objects with a clear separation between them -- remains a sparsely researched problem. It is challenging due to severe mutual occlusions and ambiguities along the objects' interaction boundaries. This paper investigates the setting and introduces a new neuro-implicit method that can reconstruct the geometry and appearance of two objects undergoing close interactions while disjoining both in 3D, avoiding surface inter-penetrations and enabling novel-view synthesis of the observed scene. The framework is end-to-end trainable and supervised using a novel alpha-blending regularisation that ensures that the two geometries are well separated even under extreme occlusions. Our reconstruction method is markerless and can be applied to rigid as well as articulated objects. We introduce a new dataset consisting of close interactions between a human and an object and also evaluate on two scenes of humans performing martial arts. The experiments confirm the effectiveness of our framework and substantial improvements using 3D and novel view synthesis metrics compared to several existing approaches applicable in our setting.