AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views
作者: Lihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai
分类: cs.CV
发布日期: 2025-05-29 (更新: 2025-09-15)
备注: Project page: https://city-super.github.io/anysplat/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
AnySplat:从无约束视角实现前馈3D高斯溅射,无需相机位姿。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 3D高斯溅射 神经渲染 无位姿估计 前馈网络
📋 核心要点
- 传统神经渲染依赖精确相机位姿和逐场景优化,计算成本高昂,限制了其在无约束环境下的应用。
- AnySplat通过单次前向传播预测3D高斯基元、相机内参和外参,实现端到端的无位姿新视角合成。
- 实验表明,AnySplat在零样本评估中,性能媲美已知位姿方法,且渲染速度远超优化方法。
📝 摘要(中文)
AnySplat是一种前馈网络,用于从未经校准的图像集合中合成新视角。与需要已知相机位姿和逐场景优化的传统神经渲染流程不同,也与在密集视角下计算负担过重的现有前馈方法不同,我们的模型可以一次性预测所有内容。通过单次前向传播,即可得到一组编码场景几何和外观的3D高斯基元,以及每个输入图像对应的相机内参和外参。这种统一的设计可以轻松扩展到随意捕获的多视角数据集,而无需任何位姿标注。在广泛的零样本评估中,AnySplat在稀疏和密集视角场景中都达到了与已知位姿的基线方法相当的质量,同时超越了现有的无位姿方法。此外,与基于优化的神经场相比,它大大降低了渲染延迟,使无约束捕获环境下的实时新视角合成成为可能。项目主页:https://city-super.github.io/anysplat/
🔬 方法详解
问题定义:现有神经渲染方法通常需要精确的相机位姿信息,这在实际应用中是一个很大的限制,尤其是在无约束的图像采集场景下。此外,即使是一些不需要位姿的方法,也往往需要大量的计算资源和时间来进行优化,难以满足实时渲染的需求。因此,如何从无约束的图像集合中,高效地合成高质量的新视角图像,是一个亟待解决的问题。
核心思路:AnySplat的核心思路是利用一个前馈神经网络,直接从输入的图像集合中预测出场景的3D高斯基元表示,以及每个图像对应的相机内参和外参。通过这种方式,避免了对相机位姿的依赖,也避免了耗时的优化过程。这种设计使得模型可以快速地处理无约束的图像数据,并实现实时的新视角合成。
技术框架:AnySplat的整体框架包含一个前馈神经网络,该网络以一组图像作为输入,输出场景的3D高斯基元表示和每个图像的相机参数。具体来说,网络首先提取每个图像的特征,然后将这些特征融合起来,用于预测3D高斯基元的参数(如位置、尺度、旋转、颜色等)和相机参数(如内参矩阵、外参矩阵)。最后,利用这些预测的参数,通过可微分的渲染过程,合成新视角的图像。
关键创新:AnySplat最关键的创新在于它能够在一个前馈网络中同时预测3D高斯基元和相机参数。这与现有的方法有本质的区别,现有方法要么需要已知的相机位姿,要么需要通过优化来估计相机位姿。AnySplat通过端到端的学习,将这两个过程整合在一起,从而实现了高效且无需位姿的新视角合成。
关键设计:AnySplat的关键设计包括:1) 使用3D高斯基元作为场景的表示,这种表示具有可微分的性质,方便进行渲染;2) 设计了一个特殊的网络结构,用于同时预测3D高斯基元和相机参数;3) 使用了一种新的损失函数,用于约束预测的3D高斯基元和相机参数,从而提高合成图像的质量。
🖼️ 关键图片
📊 实验亮点
AnySplat在零样本新视角合成任务上取得了显著的成果。在稀疏和密集视角场景中,AnySplat的性能与已知位姿的基线方法相当,同时超越了现有的无位姿方法。更重要的是,AnySplat的渲染速度远超基于优化的神经场方法,实现了实时的新视角合成。例如,在某个数据集上,AnySplat的渲染速度比NeRF快几个数量级。
🎯 应用场景
AnySplat在许多领域具有广泛的应用前景,例如:增强现实(AR)、虚拟现实(VR)、机器人导航、自动驾驶、三维重建等。它可以用于在没有精确相机位姿信息的情况下,快速地生成高质量的新视角图像,从而为这些应用提供更好的视觉体验和更强大的功能。此外,AnySplat还可以用于从互联网上的图像集合中重建三维场景,从而为人们提供更丰富的视觉信息。
📄 摘要(原文)
We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/