AdaptSplat: Adapting Vision Foundation Models for Feed-Forward 3D Gaussian Splatting

📄 arXiv: 2605.10239v1 📥 PDF

作者: Mingwei Xing, Xinliang Wang, Yifeng Shi

分类: cs.CV

发布日期: 2026-05-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出AdaptSplat:通过轻量级频率保持适配器提升前馈3D高斯泼溅的几何保真度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D高斯泼溅 视觉基础模型 前馈重建 高频特征提取 几何保真度 轻量化适配器

📋 核心要点

  1. 现有前馈3DGS方法受限于深度网络过度平滑导致的低通滤波效应,难以在复杂表面和锐利边界上保持高频几何细节。
  2. 提出轻量级频率保持适配器(FPA),通过提取视觉基础模型浅层特征中的高频先验,并结合自适应残差调制进行特征增强。
  3. 实验表明,仅增加1.5M参数的AdaptSplat在多个基准测试中达到了SOTA性能,显著提升了重建精度与跨域泛化能力。

📝 摘要(中文)

本文探讨了一种用于前馈3D高斯泼溅(3DGS)的简单且强大的轻量级适配器设计。现有方法通常在“图像特征提取→多视图交互→特征解码”的通用流程之上,叠加复杂的架构特定设计。然而,受限于3D训练数据的规模瓶颈以及深度网络带来的低通滤波效应,这些方法在跨域泛化和高频几何保真度方面表现不足。为解决这些问题,我们提出了AdaptSplat,证明了无需复杂的组件工程,仅引入一个1.5M参数的适配器即可实现卓越性能。具体而言,我们设计了频率保持适配器(FPA),从强大的视觉基础模型骨干网的浅层特征中提取方向感知的高频结构先验,并通过高频位置编码和自适应残差调制将其无缝集成到通用流程中。这有效补偿了深度特征中因过度平滑导致的高频衰减,提升了高斯基元在复杂表面和锐利边界上的拟合精度。大量实验表明,AdaptSplat在多个标准基准测试中实现了最先进的前馈重建性能,并展现出稳定的跨域泛化能力。

🔬 方法详解

问题定义:论文旨在解决前馈3DGS中普遍存在的“高频细节丢失”问题。现有方法在深层特征提取过程中,由于卷积或Transformer的平滑特性,导致几何细节(如锐利边缘、复杂纹理)被滤除,且复杂的架构设计往往难以在有限的3D数据上实现良好的泛化。

核心思路:核心思想是利用视觉基础模型(VFM)中被忽略的浅层特征,这些特征保留了丰富的高频结构信息。通过设计一个轻量级的适配器,将这些高频先验显式地注入到通用的特征解码流程中,从而在不增加复杂架构负担的前提下,补偿深度特征的平滑损失。

技术框架:整体架构基于标准的“特征提取-多视图交互-解码”流水线。AdaptSplat在骨干网的浅层与深层之间插入FPA模块,通过高频位置编码(High-frequency Positional Encodings)捕捉空间结构,并利用自适应残差调制(Adaptive Residual Modulation)将这些先验信息融合到解码器的特征图中。

关键创新:最重要的创新在于FPA模块,它打破了传统方法仅依赖深层语义特征的局限,通过显式引入方向感知的高频先验,实现了对几何细节的精准重建,且参数量极小(仅1.5M)。

关键设计:关键技术细节包括:利用高频位置编码增强空间敏感度;采用自适应残差调制机制,根据特征图的局部特性动态调整高频信息的注入比例,确保在平滑区域与细节区域之间取得平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AdaptSplat在多个主流3D重建基准测试中表现优异,在保持极低参数量(1.5M)的同时,显著超越了现有的复杂前馈3DGS方法。实验结果显示,该模型在复杂几何结构的拟合精度上提升明显,且在未见过的跨域数据集上展现出极强的鲁棒性,证明了其在实际应用中的高效性与泛化优势。

🎯 应用场景

该技术可广泛应用于实时三维重建、虚拟现实(VR)内容生成、自动驾驶场景模拟及数字孪生构建。其高效的泛化能力使其在缺乏大规模特定领域数据的情况下,仍能快速从单张或少量图像生成高质量3D资产,在游戏开发、影视特效及机器人环境感知领域具有极高的应用价值。

📄 摘要(原文)

This work explores a simple yet powerful lightweight adapter design for feed-forward 3D Gaussian Splatting (3DGS). Existing methods typically apply complex, architecture-specific designs on top of the generic pipeline of image feature extraction $\rightarrow$ multi-view interaction $\rightarrow$ feature decoding. However, constrained by the scale bottleneck of 3D training data and the low-pass filtering effect of deep networks, these methods still fall short in cross-domain generalization and high-frequency geometric fidelity. To address these problems, we propose AdaptSplat, which demonstrates that without complex component engineering, introducing a single adapter of only 1.5M parameters into the generic architecture is sufficient to achieve superior performance. Specifically, we design a lightweight Frequency-Preserving Adapter (FPA) that extracts direction-aware high-frequency structural priors from the shallow features of a powerful vision foundation model backbone, and seamlessly integrates them into the generic pipeline via high-frequency positional encodings and adaptive residual modulation. This effectively compensates for the high-frequency attenuation caused by over-smoothing in deep features, improving the fitting accuracy of Gaussian primitives on complex surfaces and sharp boundaries. Extensive experiments demonstrate that AdaptSplat achieves state-of-the-art feed-forward reconstruction performance on multiple standard benchmarks, with stable generalization across domains. Code available at: https://github.com/xmw666/AdaptSplat.