Neural Pose Representation Learning for Generating and Transferring Non-Rigid Object Poses
作者: Seungwoo Yoo, Juil Koo, Kyeongmin Yeo, Minhyuk Sung
分类: cs.CV, cs.GR
发布日期: 2024-06-14 (更新: 2024-11-04)
备注: NeurIPS 2024
💡 一句话要点
提出一种神经姿态表示学习方法,用于生成和迁移非刚性物体姿态。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 姿态表示学习 姿态迁移 3D可变形物体 隐式变形场 关键点 生成模型 扩散模型
📋 核心要点
- 现有方法难以有效解耦3D可变形物体的姿态与身份信息,限制了姿态迁移和生成的多样性。
- 提出一种基于关键点的混合姿态表示和隐式变形场的姿态学习方法,实现姿态解耦和可迁移性。
- 实验表明,该方法在姿态迁移和生成多样化变形形状方面取得了state-of-the-art的性能。
📝 摘要(中文)
本文提出了一种新颖的方法,用于学习3D可变形物体的姿态表示。该方法专注于1)将姿态信息与物体的身份解耦,2)促进姿态变化的学习,以及3)将姿态信息迁移到其他物体身份。基于这些特性,我们的方法能够利用单个物体的变化,生成在身份和姿态上都具有多样性的3D可变形物体。它不需要显式的形状参数化(如骨骼或关节)、点级或形状级对应关系监督,也不需要目标物体的姿态变化来进行姿态迁移。为了实现姿态解耦、生成模型的紧凑性和可迁移性,我们首先设计姿态提取器,将姿态表示为基于关键点的混合表示,并设计姿态应用器,以学习隐式变形场。为了更好地从物体的几何形状中提取姿态信息,我们提出了隐式姿态应用器来输出内在网格属性,即面雅可比矩阵。一旦提取的姿态信息被迁移到目标物体,姿态应用器将以自监督的方式进行微调,以更好地描述目标物体在姿态变化下的形状。提取的姿态也被用于训练级联扩散模型,以实现新姿态的生成。我们在DeformThings4D和Human数据集上的实验证明了在姿态迁移方面的最先进性能,以及生成具有各种物体和姿态的多样化变形形状的能力。
🔬 方法详解
问题定义:现有方法在处理3D可变形物体的姿态表示学习时,通常依赖于显式的形状参数化(如骨骼或关节),或者需要点级或形状级的对应关系监督。这些方法难以有效解耦姿态与身份信息,限制了姿态迁移到不同物体以及生成多样化姿态的能力。此外,现有方法往往需要目标物体的姿态变化数据,限制了其应用范围。
核心思路:本文的核心思路是将姿态表示为基于关键点的混合表示,并学习一个隐式变形场,用于将姿态信息应用到物体上。通过这种方式,可以有效地解耦姿态与身份信息,并实现姿态的迁移。此外,通过自监督微调和级联扩散模型,可以进一步提高姿态迁移的准确性和生成的多样性。
技术框架:该方法主要包含以下几个模块:1) 姿态提取器:用于从3D可变形物体中提取姿态信息,并将其表示为基于关键点的混合表示。2) 姿态应用器:用于学习一个隐式变形场,将提取的姿态信息应用到物体上,从而改变物体的形状。3) 自监督微调:在姿态迁移后,对姿态应用器进行自监督微调,以更好地适应目标物体的形状。4) 级联扩散模型:用于生成新的姿态。整体流程是,首先使用姿态提取器提取源物体的姿态,然后将姿态信息迁移到目标物体,并使用姿态应用器改变目标物体的形状,最后使用自监督微调和级联扩散模型进一步优化结果。
关键创新:该方法最重要的技术创新点在于提出了基于关键点的混合姿态表示和隐式变形场,用于解耦姿态与身份信息。与现有方法相比,该方法不需要显式的形状参数化或对应关系监督,也不需要目标物体的姿态变化数据。此外,通过自监督微调和级联扩散模型,可以进一步提高姿态迁移的准确性和生成的多样性。
关键设计:姿态提取器使用一个神经网络,将3D可变形物体的形状作为输入,输出一组关键点的位置和相应的权重。姿态应用器使用另一个神经网络,将物体的形状和提取的姿态信息作为输入,输出一个隐式变形场。该变形场描述了物体表面每个点的位移。自监督微调使用面雅可比矩阵作为监督信号,训练姿态应用器更好地描述目标物体在姿态变化下的形状。级联扩散模型使用提取的姿态作为条件,生成新的姿态。
🖼️ 关键图片
📊 实验亮点
在DeformThings4D和Human数据集上的实验结果表明,该方法在姿态迁移方面取得了state-of-the-art的性能。具体来说,该方法在姿态迁移的准确性和生成多样性方面均优于现有方法。实验结果还表明,该方法能够生成具有各种物体和姿态的多样化变形形状。
🎯 应用场景
该研究成果可应用于3D动画制作、虚拟现实、游戏开发等领域。例如,可以利用该方法将一个角色的姿态迁移到另一个角色上,或者生成具有各种姿态的3D模型。此外,该方法还可以用于机器人控制,使机器人能够模仿人类的姿态。
📄 摘要(原文)
We propose a novel method for learning representations of poses for 3D deformable objects, which specializes in 1) disentangling pose information from the object's identity, 2) facilitating the learning of pose variations, and 3) transferring pose information to other object identities. Based on these properties, our method enables the generation of 3D deformable objects with diversity in both identities and poses, using variations of a single object. It does not require explicit shape parameterization such as skeletons or joints, point-level or shape-level correspondence supervision, or variations of the target object for pose transfer. To achieve pose disentanglement, compactness for generative models, and transferability, we first design the pose extractor to represent the pose as a keypoint-based hybrid representation and the pose applier to learn an implicit deformation field. To better distill pose information from the object's geometry, we propose the implicit pose applier to output an intrinsic mesh property, the face Jacobian. Once the extracted pose information is transferred to the target object, the pose applier is fine-tuned in a self-supervised manner to better describe the target object's shapes with pose variations. The extracted poses are also used to train a cascaded diffusion model to enable the generation of novel poses. Our experiments with the DeformThings4D and Human datasets demonstrate state-of-the-art performance in pose transfer and the ability to generate diverse deformed shapes with various objects and poses.