Gaussian See, Gaussian Do: Semantic 3D Motion Transfer from Multiview Video

📄 arXiv: 2511.14848v1 📥 PDF

作者: Yarin Bekor, Gal Michael Harari, Or Perel, Or Litany

分类: cs.CV

发布日期: 2025-11-18

备注: SIGGRAPH Asia 2025


💡 一句话要点

提出Gaussian See, Gaussian Do,实现多视角视频的语义3D动作迁移

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D动作迁移 多视角视频 高斯溅射 语义对应 运动嵌入 条件反演 4D重建

📋 核心要点

  1. 现有动作迁移方法难以在不同类别对象间建立语义对应,限制了其应用范围。
  2. 通过提取源视频的动作嵌入,并将其应用于目标对象的渲染视图,实现动作迁移。
  3. 引入视角感知的运动嵌入机制和鲁棒的4D重建流程,提升了运动保真度和结构一致性。

📝 摘要(中文)

本文提出Gaussian See, Gaussian Do,一种新颖的从多视角视频进行语义3D动作迁移的方法。我们的方法实现了在具有语义对应关系的对象之间进行无rig、跨类别的动作迁移。基于隐式动作迁移技术,我们通过条件反演从源视频中提取动作嵌入,将其应用于静态目标形状的渲染帧,并使用生成的视频来监督动态3D高斯溅射重建。我们的方法引入了一种基于锚点的、视角感知的运动嵌入机制,确保跨视角一致性并加速收敛,以及一个强大的4D重建管道,用于整合嘈杂的监督视频。我们建立了第一个语义3D动作迁移的基准,并证明了与改进的基线相比,具有卓越的运动保真度和结构一致性。本文的代码和数据可在https://gsgd-motiontransfer.github.io/ 获得。

🔬 方法详解

问题定义:现有的动作迁移方法通常依赖于精确的rigging信息,这限制了它们在不同类别对象之间的应用。此外,建立不同对象之间的语义对应关系是一个挑战,尤其是在处理复杂的动作时。因此,需要一种能够实现无rig、跨类别、且具有语义意义的3D动作迁移方法。

核心思路:本文的核心思路是从多视角视频中提取动作嵌入,并将这些嵌入应用于静态目标对象的渲染视图。通过这种方式,可以将源视频中的动作“转移”到目标对象上,而无需显式的rigging信息。关键在于如何有效地提取和应用这些动作嵌入,并确保跨视角的一致性。

技术框架:该方法包含以下几个主要阶段:1) 从多视角源视频中提取动作嵌入,使用条件反演技术。2) 将提取的动作嵌入应用于静态目标对象的渲染帧,生成监督视频。3) 使用生成的监督视频来训练一个动态3D高斯溅射模型,从而重建目标对象的动态3D模型。4) 引入基于锚点的视角感知运动嵌入机制,以确保跨视角一致性。

关键创新:该方法的关键创新在于:1) 提出了一种基于锚点的视角感知运动嵌入机制,能够有效地提取和应用动作嵌入,并确保跨视角的一致性。2) 建立了一个鲁棒的4D重建管道,能够处理嘈杂的监督视频,并生成高质量的动态3D模型。3) 构建了首个语义3D动作迁移的基准数据集,为该领域的研究提供了支持。

关键设计:该方法使用高斯溅射作为3D表示,并设计了特定的损失函数来优化运动嵌入和3D模型。具体来说,损失函数包括运动保真度损失、结构一致性损失和跨视角一致性损失。基于锚点的视角感知运动嵌入机制通过在不同视角之间建立对应关系,来提高运动迁移的准确性和一致性。具体参数设置和网络结构细节在论文中有详细描述,此处不再赘述。

📊 实验亮点

该论文建立了首个语义3D动作迁移基准,并在该基准上进行了实验。实验结果表明,该方法在运动保真度和结构一致性方面均优于现有的基线方法。具体性能提升数据在论文中有详细展示,证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发和动画制作等领域。例如,可以将一个人的舞蹈动作迁移到虚拟角色上,或者将动物的运动模式应用于机器人设计。该技术有望简化3D内容创作流程,并为用户提供更加个性化和沉浸式的体验。

📄 摘要(原文)

We present Gaussian See, Gaussian Do, a novel approach for semantic 3D motion transfer from multiview video. Our method enables rig-free, cross-category motion transfer between objects with semantically meaningful correspondence. Building on implicit motion transfer techniques, we extract motion embeddings from source videos via condition inversion, apply them to rendered frames of static target shapes, and use the resulting videos to supervise dynamic 3D Gaussian Splatting reconstruction. Our approach introduces an anchor-based view-aware motion embedding mechanism, ensuring cross-view consistency and accelerating convergence, along with a robust 4D reconstruction pipeline that consolidates noisy supervision videos. We establish the first benchmark for semantic 3D motion transfer and demonstrate superior motion fidelity and structural consistency compared to adapted baselines. Code and data for this paper available at https://gsgd-motiontransfer.github.io/