Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars

📄 arXiv: 2410.08840v1 📥 PDF

作者: Xuan Huang, Hanhui Li, Wanquan Liu, Xiaodan Liang, Yiqiang Yan, Yuhao Cheng, Chengqiang Gao

分类: cs.CV

发布日期: 2024-10-11

备注: Accepted to NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出交互感知3D高斯溅射框架,用于单张图像手部Avatar的生成与动画

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 手部Avatar 3D高斯溅射 交互感知 单张图像 神经渲染 手势识别 人机交互

📋 核心要点

  1. 现有基于高斯溅射的手部Avatar方法在处理单视角、复杂姿势和遮挡时效果不佳。
  2. 提出交互感知的高斯溅射框架,解耦手部表示,利用跨主体先验并细化交互区域。
  3. 在InterHand2.6M数据集上验证,显著提升了手部Avatar的图像渲染质量。

📝 摘要(中文)

本文提出了一种基于3D高斯溅射(GS)和单张图像输入,为交互手部创建可动画Avatar的方法。现有的基于GS的单主体方法由于输入视角有限、手部姿势多样和遮挡等问题,效果往往不尽如人意。为了解决这些挑战,我们引入了一个新颖的两阶段交互感知GS框架,该框架利用跨主体手部先验并细化交互区域的3D高斯分布。特别地,为了处理手部变化,我们将手部的3D表示解耦为基于优化的身份映射和基于学习的潜在几何特征与神经纹理映射。学习到的特征由训练好的网络捕获,为姿势、形状和纹理提供可靠的先验,而基于优化的身份映射能够有效地对分布外的手部进行单样本拟合。此外,我们设计了一个交互感知注意力模块和一个自适应高斯细化模块。这些模块增强了手部内部和手部之间交互区域的图像渲染质量,克服了现有基于GS的方法的局限性。我们提出的方法通过在大型InterHand2.6M数据集上的大量实验得到验证,并且显著提高了图像质量方面的最新性能。

🔬 方法详解

问题定义:现有基于高斯溅射(GS)的手部Avatar生成方法,在单视角输入、复杂手部姿势以及手部自遮挡和互遮挡的情况下,渲染质量不佳。主要痛点在于缺乏足够的信息来准确重建和渲染手部的3D结构和纹理,尤其是在交互区域。

核心思路:核心思路是将手部的3D表示解耦为身份映射和几何/纹理特征,并利用跨主体手部先验知识。通过学习先验知识,可以弥补单视角输入带来的信息不足,从而更好地处理手部姿势变化和遮挡问题。同时,针对交互区域进行特殊处理,提升渲染质量。

技术框架:该方法采用两阶段框架。第一阶段,利用学习到的几何特征和神经纹理映射,结合基于优化的身份映射,初始化手部的3D高斯表示。第二阶段,通过交互感知注意力模块和自适应高斯细化模块,对交互区域的高斯分布进行细化,提升渲染质量。整体流程是从单张图像输入开始,经过特征提取、高斯初始化、交互感知细化,最终得到可动画的手部Avatar。

关键创新:主要创新点在于:1) 将手部3D表示解耦为身份映射和几何/纹理特征,兼顾了通用性和个性化;2) 引入交互感知注意力模块和自适应高斯细化模块,专门处理手部交互区域,提升渲染质量。与现有方法相比,该方法更有效地利用了跨主体手部先验知识,并针对性地解决了交互区域的渲染问题。

关键设计:交互感知注意力模块通过注意力机制,关注手部内部和手部之间的交互区域,从而更好地融合这些区域的特征。自适应高斯细化模块则根据交互区域的渲染误差,动态调整高斯分布的参数,例如位置、大小和颜色等。损失函数包括渲染损失、正则化损失等,用于优化高斯分布的参数和网络参数。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在InterHand2.6M数据集上进行了大量实验,结果表明,该方法显著提高了手部Avatar的图像渲染质量,优于现有的基于高斯溅射的方法。具体的性能提升数据,例如PSNR、SSIM等指标,在论文中有详细展示。实验结果验证了该方法在处理单视角、复杂姿势和遮挡等问题上的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)、增强现实(AR)、人机交互等领域。例如,在VR/AR游戏中,可以生成更逼真的手部Avatar,提升用户体验。在人机交互中,可以实现更自然的手势识别和控制。此外,该技术还可以用于远程协作、虚拟会议等场景,提升沟通效率。

📄 摘要(原文)

In this paper, we propose to create animatable avatars for interacting hands with 3D Gaussian Splatting (GS) and single-image inputs. Existing GS-based methods designed for single subjects often yield unsatisfactory results due to limited input views, various hand poses, and occlusions. To address these challenges, we introduce a novel two-stage interaction-aware GS framework that exploits cross-subject hand priors and refines 3D Gaussians in interacting areas. Particularly, to handle hand variations, we disentangle the 3D presentation of hands into optimization-based identity maps and learning-based latent geometric features and neural texture maps. Learning-based features are captured by trained networks to provide reliable priors for poses, shapes, and textures, while optimization-based identity maps enable efficient one-shot fitting of out-of-distribution hands. Furthermore, we devise an interaction-aware attention module and a self-adaptive Gaussian refinement module. These modules enhance image rendering quality in areas with intra- and inter-hand interactions, overcoming the limitations of existing GS-based methods. Our proposed method is validated via extensive experiments on the large-scale InterHand2.6M dataset, and it significantly improves the state-of-the-art performance in image quality. Project Page: \url{https://github.com/XuanHuang0/GuassianHand}.