BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting
作者: Jeongwan On, Kyeonghwan Gwak, Gunyoung Kang, Junuk Cha, Soohyun Hwang, Hyein Hwang, Seungryul Baek
分类: cs.CV
发布日期: 2025-04-12
备注: Accepted to CVPR 2025
💡 一句话要点
BIGS:基于单目视频和3D高斯溅射的双手无类别交互重建
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 3D高斯溅射 双手交互 物体重建 单目视频 扩散模型 手部姿态估计 人机交互
📋 核心要点
- 现有方法在双手-物体交互重建中存在局限性,如依赖预知物体模板或仅考虑单手交互,无法处理复杂遮挡。
- BIGS利用3D高斯溅射表示手和物体,结合预训练扩散模型先验和手部模型先验,解决遮挡和信息不足的问题。
- 实验表明,BIGS在多个指标上超越现有技术,实现了更精确的3D手部姿态估计、物体重建和高质量渲染。
📝 摘要(中文)
本文提出BIGS(Bimanual Interaction 3D Gaussian Splatting),一种从单目RGB视频中重建双手和未知物体的3D高斯表示的方法,用于双手-物体交互(HOI)重建。针对双手动交互中严重的遮挡问题,BIGS利用预训练扩散模型的先验知识,通过score distillation sampling (SDS)损失来重建未见过的物体部分。对于手部高斯,利用手部模型(MANO)的3D先验,并为双手共享单个高斯,以有效累积手部3D信息。此外,在高斯优化过程中,引入交互主体优化步骤,进一步考虑手与物体之间的3D对齐。实验结果表明,该方法在3D手部姿态估计(MPJPE)、3D物体重建(CDh, CDo, F10)和渲染质量(PSNR, SSIM, LPIPS)方面均达到了最先进的精度。
🔬 方法详解
问题定义:论文旨在解决从单目RGB视频中重建双手与未知物体的交互3D场景的问题。现有方法主要痛点在于:1) 难以处理双手交互带来的严重遮挡;2) 缺乏对未知物体的有效建模;3) 在有限视角下难以准确估计手部姿态。
核心思路:论文的核心思路是利用3D高斯溅射表示场景,并结合预训练扩散模型的先验知识和手部模型先验,来克服遮挡和信息不足的问题。通过score distillation sampling (SDS)损失,可以引导物体高斯重建,即使在遮挡情况下也能生成合理的形状。共享双手高斯并利用手部模型先验,可以提高手部姿态估计的鲁棒性。
技术框架:BIGS的整体框架包括以下几个主要阶段:1) 初始化手部和物体的高斯表示;2) 利用预训练扩散模型和SDS损失优化物体高斯;3) 利用手部模型先验和共享高斯优化手部高斯;4) 引入交互主体优化步骤,进一步对齐手部和物体。整个过程通过迭代优化,逐步完善场景的3D重建。
关键创新:论文的关键创新在于:1) 提出了一种基于3D高斯溅射的双手-物体交互重建方法,能够处理复杂的遮挡情况;2) 将预训练扩散模型引入到物体重建中,利用其强大的生成能力来恢复未见过的物体部分;3) 采用共享高斯和手部模型先验,提高了手部姿态估计的准确性和鲁棒性。
关键设计:在物体高斯优化中,使用了预训练扩散模型生成的score作为监督信号,通过SDS损失来引导高斯参数的更新。手部高斯优化中,使用了MANO手部模型作为先验,约束手部形状和姿态。此外,还设计了一个交互主体优化步骤,通过最小化手部和物体之间的距离,来提高它们的对齐程度。具体损失函数包括SDS损失、手部模型损失和交互损失等。
🖼️ 关键图片
📊 实验亮点
BIGS在两个具有挑战性的数据集上取得了state-of-the-art的结果。在3D手部姿态估计方面,MPJPE指标显著优于现有方法。在3D物体重建方面,CDh, CDo, F10等指标均有明显提升。在渲染质量方面,PSNR, SSIM, LPIPS等指标也达到了最佳水平,证明了BIGS在重建精度和视觉效果方面的优越性。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、机器人操作等领域。例如,可以用于构建更逼真的虚拟交互环境,使人能够自然地与虚拟物体进行交互。在机器人操作中,可以帮助机器人理解人的意图,从而更安全有效地完成任务。此外,该技术还可以用于手语识别、动作捕捉等应用。
📄 摘要(原文)
Reconstructing 3Ds of hand-object interaction (HOI) is a fundamental problem that can find numerous applications. Despite recent advances, there is no comprehensive pipeline yet for bimanual class-agnostic interaction reconstruction from a monocular RGB video, where two hands and an unknown object are interacting with each other. Previous works tackled the limited hand-object interaction case, where object templates are pre-known or only one hand is involved in the interaction. The bimanual interaction reconstruction exhibits severe occlusions introduced by complex interactions between two hands and an object. To solve this, we first introduce BIGS (Bimanual Interaction 3D Gaussian Splatting), a method that reconstructs 3D Gaussians of hands and an unknown object from a monocular video. To robustly obtain object Gaussians avoiding severe occlusions, we leverage prior knowledge of pre-trained diffusion model with score distillation sampling (SDS) loss, to reconstruct unseen object parts. For hand Gaussians, we exploit the 3D priors of hand model (i.e., MANO) and share a single Gaussian for two hands to effectively accumulate hand 3D information, given limited views. To further consider the 3D alignment between hands and objects, we include the interacting-subjects optimization step during Gaussian optimization. Our method achieves the state-of-the-art accuracy on two challenging datasets, in terms of 3D hand pose estimation (MPJPE), 3D object reconstruction (CDh, CDo, F10), and rendering quality (PSNR, SSIM, LPIPS), respectively.