RigPAPR: Rig-Based Animation of Static Neural Point Clouds from a Fixed-Viewpoint Video
作者: Shichong Peng, Yanshu Zhang, Ke Li
分类: cs.CV, cs.GR
发布日期: 2026-06-04
备注: An overview video is available at https://youtu.be/up3BwRHYWG8
💡 一句话要点
提出RigPAPR以解决静态神经点云动画生成问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 静态神经点云 动画生成 直接线性混合蒙皮 关节伪影 3D资产恢复
📋 核心要点
- 现有方法在关节处容易出现伪影,无法有效处理静态神经点云的动画生成。
- RigPAPR通过自动装配静态PAPR云,利用直接线性混合蒙皮驱动动画,避免了网格代理和姿态依赖的修正。
- 在合成对象上,RigPAPR在监督视角下与最强基线匹配,并在新视角下超越网格和高斯点云基线3+dB PSNR。
📝 摘要(中文)
静态神经点重建能够从姿态图像中高保真地捕捉对象。本文旨在通过单视角固定视频驱动这些重建进行动画生成,并恢复可重新定位的3D资产。现有方法在关节处容易出现伪影,本文提出的RigPAPR方法通过自动装配静态PAPR云,避免了网格代理和姿态依赖的修正,能够在合成和真实对象上实现更清晰的关节边界渲染,且在新视角下的PSNR提升超过3dB。
🔬 方法详解
问题定义:本文解决的是如何将静态神经点云从固定视角视频中进行动画生成的问题。现有方法在关节处容易出现伪影,导致动画效果不佳。
核心思路:RigPAPR的核心思路是通过自动装配静态PAPR云,利用直接线性混合蒙皮(LBS)驱动动画,而不依赖于网格代理或姿态依赖的修正,从而避免关节处的伪影。
技术框架:该方法的整体架构包括静态PAPR云的自动装配和通过LBS驱动的动画生成。主要模块包括点云重建、动画驱动和渲染。
关键创新:RigPAPR的主要创新在于其无需每个原始形状的校准,采用了基于像素的重组方式,使得表面在关节处自然变形,避免了传统方法的伪影问题。
关键设计:在参数设置上,RigPAPR不使用网格代理,且在损失函数设计上注重关节边界的清晰度,网络结构则基于PAPR的点云表示进行优化。
🖼️ 关键图片
📊 实验亮点
RigPAPR在合成对象上与最强基线匹配,并在新视角下超越网格和高斯点云基线3+dB PSNR,展示了在关节边界渲染方面的显著提升,验证了其有效性和优越性。
🎯 应用场景
该研究在动画生成、虚拟现实和游戏开发等领域具有广泛的应用潜力。通过高效的3D资产生成,能够提升用户体验,并为创作者提供更灵活的工具,推动内容创作的创新与发展。
📄 摘要(原文)
Static neural point reconstructions capture a subject at high fidelity from posed images. Given such a reconstruction, we aim to animate it to follow a monocular fixed-viewpoint driving video of the subject, whether captured or produced by image-to-video (I2V) generation, and to recover a rigged, re-posable 3D asset. Existing methods deform Gaussian splats through direct linear blend skinning (LBS) or mesh proxies, both of which are prone to joint-boundary artifacts under articulation, even with per-primitive corrections. We trace the artifact to the representation: each splat carries an individual shape calibrated in the canonical pose to tile with its neighbours. Under rigid LBS, each splat moves with its bone but cannot bend, so the canonical tiling breaks at joint boundaries into gaps and spikes. Proximity attention point rendering (PAPR) instead carries no per-primitive shape; each pixel is recomposed at render time from the deformed primitives' positions, so the surface re-forms naturally with the articulation. We present RigPAPR, which auto-rigs a static PAPR cloud and drives it under direct LBS from a single fixed-viewpoint video, without mesh proxy, pose-dependent correction, or category template. On synthetic subjects, RigPAPR matches the strongest baseline at the supervised view and exceeds mesh-based and Gaussian-splatting baselines at novel views by 3+dB PSNR, with cleaner joint-boundary renderings of both synthetic and real subjects.