Generalizable Human Gaussian Splatting via Multi-view Semantic Consistency

📄 arXiv: 2604.25466v1 📥 PDF

作者: Jingi Kim, Wonjun Kim

分类: cs.CV

发布日期: 2026-04-28

备注: 10 pages, 8 figures, CVPR 2026 Findings


💡 一句话要点

提出基于多视角语义一致性的通用人体高斯溅射方法,提升稀疏视角下的渲染质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体高斯溅射 多视角学习 语义一致性 三维重建 神经渲染

📋 核心要点

  1. 现有通用人体高斯溅射方法在处理复杂姿态和有限视角重叠时,易出现跨视角特征不一致问题。
  2. 论文提出一种新方法,通过跨视角语义一致性来精确定位3D高斯分布,解决空间模糊性问题。
  3. 实验结果表明,该方法能有效提升稀疏视角下通用人体高斯溅射的性能,改善渲染质量。

📝 摘要(中文)

本文研究了从稀疏视角输入中进行通用人体高斯溅射,以实现逼真的人体渲染。现有方法依赖于显式的几何约束或预定义的结构表示来精确定位3D高斯分布,但由于人体复杂的姿态和不同视角之间的有限重叠,导致跨多视角输入的不一致特征表示。为了解决这个问题,我们提出了一种新方法,通过预测的深度图将从每个视角编码的潜在嵌入反投影到共享的3D空间中,并基于跨视角注意力机制重新校准属于同一身体部位的嵌入,从而精确定位3D高斯分布并提高人体渲染质量。这有助于模型解决高纹理区域以及遮挡身体部位中出现的空间模糊性。在基准数据集上的实验结果表明,该方法有效地提高了从稀疏视角输入中进行通用人体高斯溅射的性能。

🔬 方法详解

问题定义:现有通用人体高斯溅射方法依赖于几何约束或预定义结构,但在稀疏视角下,人体姿态复杂和视角重叠有限导致跨视角特征不一致,影响渲染质量。现有方法难以有效解决高纹理区域和遮挡区域的空间模糊性问题。

核心思路:论文的核心思路是利用多视角语义一致性来提升3D高斯分布的定位精度。具体来说,通过将每个视角编码的潜在嵌入反投影到共享的3D空间,并利用跨视角注意力机制校准属于同一身体部位的嵌入,从而解决空间模糊性问题。这样设计的目的是为了在缺乏足够几何信息的情况下,利用语义信息来约束高斯分布的位置。

技术框架:该方法主要包含以下几个阶段:1) 从每个视角输入图像中提取潜在嵌入;2) 使用预测的深度图将这些嵌入反投影到3D空间;3) 利用跨视角注意力机制,根据语义信息校准3D空间中的嵌入;4) 使用校准后的嵌入进行高斯溅射渲染。整体流程旨在利用多视角信息增强特征表示,从而提升渲染质量。

关键创新:该方法最重要的技术创新点在于引入了跨视角语义一致性约束。与现有方法依赖几何约束不同,该方法利用语义信息来指导3D高斯分布的定位,从而更好地处理遮挡和高纹理区域。本质区别在于从几何约束转向了语义约束,更适应稀疏视角下的复杂场景。

关键设计:关键设计包括:1) 使用深度预测网络来获取每个视角的深度图,用于将2D特征反投影到3D空间;2) 设计跨视角注意力机制,用于根据语义信息校准3D空间中的嵌入。具体实现细节可能包括注意力机制的具体形式(如Transformer中的自注意力),以及损失函数的设计,例如,可以使用一个损失函数来鼓励属于同一身体部位的嵌入具有相似的特征表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在通用人体高斯溅射任务上取得了显著的性能提升。实验结果表明,该方法能够更准确地定位3D高斯分布,从而提高渲染质量,尤其是在处理遮挡和高纹理区域时。相较于现有方法,该方法在多个指标上均有明显改善,证明了跨视角语义一致性约束的有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域,实现逼真且可泛化的人体渲染。通过少量视角的图像即可重建高质量的人体模型,降低了数据采集成本,并为用户提供更自由的交互体验。未来可进一步扩展到动态人体渲染和动作捕捉等领域。

📄 摘要(原文)

Recently, generalizable human Gaussian splatting from sparse-view inputs has been actively studied for the photorealistic human rendering. Most existing methods rely on explicit geometric constraints or predefined structural representations to accurately position 3D Gaussians. Although these approaches have shown the remarkable progress in this field, they still suffer from inconsistent feature representations across multi-view inputs due to complex articulations of the human body and limited overlaps between different views. To address this problem, we propose a novel method to accurately localize 3D Gaussians and ultimately improve the quality of human rendering. The key idea is to unproject latent embeddings encoded from each viewpoint into a shared 3D space through predicted depth maps and recalibrate them belonging to the same body part based on cross-view attention. This helps the model resolve the spatial ambiguity occurring in highly textured regions as well as occluded body parts, thus leading to the accurate localization of 3D Gaussians. Experimental results on benchmark datasets show that the proposed method efficiently improves the performance of generalizable human Gaussian splatting from sparse-view inputs.