GASPACHO: Gaussian Splatting for Controllable Humans and Objects
作者: Aymen Mir, Arthur Moreau, Helisa Dhamo, Zhensong Zhang, Gerard Pons-Moll, Eduardo Pérez-Pellitero
分类: cs.CV
发布日期: 2025-03-12 (更新: 2025-12-16)
备注: Project Page: https://miraymen.github.io/gaspacho/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GASPACHO:提出基于高斯溅射的可控人与物体交互渲染方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 高斯溅射 神经渲染 人与物体交互 可控渲染 动态场景重建
📋 核心要点
- 现有方法难以同时重建可控的人体和交互物体,通常将物体视为背景,限制了人与物体交互的真实感和可控性。
- GASPACHO 通过将人体和物体建模为独立的高斯集合,并在 2D 表面流形上学习物体高斯分布,实现对人与物体交互的精细控制。
- 实验表明,GASPACHO 在多个基准测试中实现了高质量的重建,并支持对新的人与物体交互进行可控合成,效果显著。
📝 摘要(中文)
GASPACHO 是一种从多视角 RGB 视频中生成逼真、可控的人与物体交互渲染的方法。与以往仅重建人体并将物体视为背景的工作不同,GASPACHO 同时恢复人体和交互物体的可动画模板,将它们表示为不同的高斯集合,从而允许在不同姿势下,从新的相机视角对新的人与物体交互进行可控渲染。该方法引入了一种新颖的公式,在底层 2D 表面流形上学习物体高斯分布,而不是在 3D 体积中,从而为动态物体重建产生更清晰、更精细的物体细节。此外,该方法还提出了高斯空间中的接触约束,以规范人与物体的关系,并实现自然、物理上合理的动画。在 BEHAVE、NeuralDome 和 DNA-Rendering 三个基准测试中,GASPACHO 在严重遮挡下实现了高质量的重建,并支持对新的人与物体交互进行可控合成。该方法还允许在 3D 场景中组合人和物体,并首次展示了神经渲染可用于在不同场景中可控地生成与动态物体交互的逼真人。
🔬 方法详解
问题定义:现有方法在处理人与物体交互时,通常只关注人体重建,将交互物体视为静态背景,无法实现对交互物体的精细控制和动画。这限制了生成逼真、可控的人与物体交互场景的能力。此外,直接在3D空间中学习物体的高斯分布容易导致细节模糊。
核心思路:GASPACHO 的核心思路是将人体和交互物体分别建模为独立的高斯集合,并引入 2D 表面流形来学习物体的高斯分布。通过这种方式,可以实现对人体和物体的独立控制,并获得更精细的物体细节。同时,引入高斯空间中的接触约束,以保证人与物体交互的物理合理性。
技术框架:GASPACHO 的整体框架包括以下几个主要模块:1) 多视角 RGB 视频输入;2) 人体和物体的高斯表示初始化;3) 基于 2D 表面流形的物体高斯分布学习;4) 高斯空间中的接触约束;5) 可微分渲染,用于优化高斯参数;6) 可控的人与物体交互渲染。
关键创新:GASPACHO 的关键创新在于:1) 同时重建可控的人体和交互物体,而不是只关注人体;2) 在 2D 表面流形上学习物体高斯分布,从而获得更精细的物体细节;3) 引入高斯空间中的接触约束,以保证人与物体交互的物理合理性。
关键设计:该方法使用 3D 高斯溅射 (3D Gaussian Splatting) 作为基础渲染技术。物体的高斯分布在 2D 表面流形上进行参数化,例如使用 UV 坐标。接触约束通过惩罚人体和物体高斯之间的穿透来实现。损失函数包括渲染损失、正则化损失和接触约束损失。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
GASPACHO 在 BEHAVE、NeuralDome 和 DNA-Rendering 三个基准测试中取得了显著的成果。实验结果表明,GASPACHO 在严重遮挡下实现了高质量的重建,并支持对新的人与物体交互进行可控合成。与现有方法相比,GASPACHO 在重建质量和可控性方面均有显著提升,能够生成更逼真、更自然的人与物体交互场景。
🎯 应用场景
GASPACHO 在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成逼真、可控的人与物体交互场景,例如虚拟试穿、人机交互仿真、电影特效制作等。该研究的实际价值在于提高了人与物体交互场景的真实感和可控性,为相关应用提供了更强大的技术支持。未来,该方法可以进一步扩展到更复杂的场景和交互类型,例如多人交互、复杂物体操作等。
📄 摘要(原文)
We present GASPACHO, a method for generating photorealistic, controllable renderings of human-object interactions from multi-view RGB video. Unlike prior work that reconstructs only the human and treats objects as background, GASPACHO simultaneously recovers animatable templates for both the human and the interacting object as distinct sets of Gaussians, thereby allowing for controllable renderings of novel human object interactions in different poses from novel-camera viewpoints. We introduce a novel formulation that learns object Gaussians on an underlying 2D surface manifold rather than in 3D volume, yielding sharper, fine-grained object details for dynamic object reconstruction. We further propose a contact constraint in Gaussian space that regularizes human-object relations and enables natural, physically plausible animation. Across three benchmarks - BEHAVE, NeuralDome, and DNA-Rendering - GASPACHO achieves high-quality reconstructions under heavy occlusion and supports controllable synthesis of novel human-object interactions. We also demonstrate that our method allows for composition of humans and objects in 3D scenes and for the first time showcase that neural rendering can be used for the controllable generation of photoreal humans interacting with dynamic objects in diverse scenes. Our results are available at: https://miraymen.github.io/gaspacho/