SqueezeMe: Mobile-Ready Distillation of Gaussian Full-Body Avatars

📄 arXiv: 2412.15171v4 📥 PDF

作者: Forrest Iandola, Stanislav Pidhorskyi, Igor Santesteban, Divam Gupta, Anuj Pahuja, Nemanja Bartolovic, Frank Yu, Emanuel Garbin, Tomas Simon, Shunsuke Saito

分类: cs.CV

发布日期: 2024-12-19 (更新: 2025-06-27)

备注: Accepted to SIGGRAPH 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SqueezeMe:高斯全身体化身移动端实时蒸馏框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯化身 移动渲染 模型蒸馏 实时动画 VR/AR 线性姿势校正 Vulkan

📋 核心要点

  1. 现有高斯全身体化身方法计算量大,难以在移动设备上实时渲染和动画。
  2. SqueezeMe通过将神经网络学习的姿势校正提炼到线性层,降低计算和内存开销。
  3. 在Meta Quest 3上,SqueezeMe首次实现了3个高斯化身的72 FPS实时渲染。

📝 摘要(中文)

基于高斯的全身体化身技术已经达到了前所未有的视觉逼真度。然而,现有基于高容量神经网络的方法通常需要桌面GPU才能实现单个化身的实时性能。由于内存和计算带宽的严重限制,在包括独立VR头显在内的移动设备上动画和渲染此类化身仍然非常困难。本文提出SqueezeMe,一个简单而高效的框架,可以将高保真3D高斯全身体化身转换为轻量级表示,支持移动级计算的动画和渲染。我们的关键观察是,从神经网络解码姿势相关的高斯属性会产生不可忽略的内存和计算开销。受到计算机图形学中广泛使用的blendshape和线性姿势校正的启发,我们通过将神经网络学习的姿势校正提炼到线性层来解决这个问题。此外,我们通过在附近的高斯之间共享校正来进一步减少参数。结合基于Vulkan的自定义splatting管线,我们首次在Meta Quest 3 VR头显上实现了3个高斯化身的实时(72 FPS)同步动画和渲染。

🔬 方法详解

问题定义:现有基于高斯的全身体化身方法依赖于高容量神经网络,导致计算量和内存占用过大,无法在移动设备(如VR头显)上实现实时渲染和动画。解码姿势相关的高斯属性是性能瓶颈。

核心思路:SqueezeMe的核心思路是将神经网络学习的姿势校正信息蒸馏到线性层中,从而降低模型的复杂度和计算量。借鉴了计算机图形学中blendshape和线性姿势校正的思想,用更轻量级的线性模型替代复杂的神经网络解码器。

技术框架:SqueezeMe框架主要包含以下几个阶段:1) 使用高容量神经网络训练高斯全身体化身模型。2) 将神经网络学习的姿势校正信息蒸馏到线性层。3) 在相邻高斯之间共享校正参数,进一步减少参数量。4) 使用基于Vulkan的自定义splatting管线进行渲染。

关键创新:SqueezeMe的关键创新在于使用蒸馏的方法,将复杂的神经网络解码器替换为轻量级的线性层,从而显著降低了模型的计算复杂度和内存占用。此外,通过在相邻高斯之间共享校正参数,进一步减少了参数量。

关键设计:SqueezeMe的关键设计包括:1) 使用线性层替代神经网络解码器。2) 设计合适的损失函数,保证蒸馏后的线性层能够准确地模拟神经网络的学习结果。3) 确定相邻高斯之间共享校正参数的策略。4) 优化基于Vulkan的splatting管线,提高渲染效率。具体参数设置和网络结构细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SqueezeMe在Meta Quest 3 VR头显上实现了3个高斯化身的实时(72 FPS)同步动画和渲染,这是首次在移动设备上实现如此高质量的实时化身渲染。通过蒸馏和参数共享,SqueezeMe显著降低了模型的计算复杂度和内存占用,使得移动设备上的实时渲染成为可能。

🎯 应用场景

SqueezeMe技术可应用于移动VR/AR、虚拟会议、游戏等领域,实现高质量、低延迟的虚拟化身渲染。该技术降低了对硬件的要求,使得更多用户可以在移动设备上体验逼真的虚拟化身,促进了元宇宙和数字人技术的发展。

📄 摘要(原文)

Gaussian-based human avatars have achieved an unprecedented level of visual fidelity. However, existing approaches based on high-capacity neural networks typically require a desktop GPU to achieve real-time performance for a single avatar, and it remains non-trivial to animate and render such avatars on mobile devices including a standalone VR headset due to substantially limited memory and computational bandwidth. In this paper, we present SqueezeMe, a simple and highly effective framework to convert high-fidelity 3D Gaussian full-body avatars into a lightweight representation that supports both animation and rendering with mobile-grade compute. Our key observation is that the decoding of pose-dependent Gaussian attributes from a neural network creates non-negligible memory and computational overhead. Inspired by blendshapes and linear pose correctives widely used in Computer Graphics, we address this by distilling the pose correctives learned with neural networks into linear layers. Moreover, we further reduce the parameters by sharing the correctives among nearby Gaussians. Combining them with a custom splatting pipeline based on Vulkan, we achieve, for the first time, simultaneous animation and rendering of 3 Gaussian avatars in real-time (72 FPS) on a Meta Quest 3 VR headset. Demo videos are available at https://forresti.github.io/squeezeme.