No Pose, No Problem in 4D: Feed-Forward Dynamic Gaussians from Unposed Multi-View Videos
作者: Matteo Balice, Yanik Kunzi, Chenyangguang Zhang, Matteo Matteucci, Marc Pollefeys, Sungwhan Hong
分类: cs.CV
发布日期: 2026-05-21
备注: https://bralani.github.io/nopo4d_html/
💡 一句话要点
NoPo4D:首个从无位姿多视角视频中进行前馈动态高斯建模的系统
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态场景重建 高斯Splatting 无位姿 多视角视频 光流监督
📋 核心要点
- 现有方法难以同时处理动态场景、多视角输入和未知相机位姿下的三维重建,限制了应用范围。
- NoPo4D通过分解高斯运动为图像平面位移和深度变化,并利用光流进行监督,避免了对精确位姿和3D运动真值的依赖。
- 实验表明,NoPo4D在多视角动态场景重建中显著优于现有前馈方法,并能通过后优化超越逐场景优化方法。
📝 摘要(中文)
本文提出NoPo4D,首个前馈系统,旨在解决动态内容、多视角输入和未知相机位姿下的3D场景重建问题。现有方法在处理动态内容时需要精确的相机位姿或仅接受单目输入;无位姿多视角方法仅处理静态场景;而逐场景优化方法虽然弥补了一些差距,但耗时巨大。NoPo4D基于预训练的几何骨干网络和最新的4D高斯框架,引入了一种速度分解方法,将高斯运动分解为逐像素图像平面位移和深度变化,从而可以直接从伪真值光流中进行监督。这避免了可微渲染对位姿精度的依赖,以及对3D运动真值的需求。该系统还包括一个用于跨视角和跨帧特征聚合的双向运动编码器,以及用于缓解跨视角和跨时间步高斯错位的视角相关不透明度。在四个多视角动态基准测试中,NoPo4D始终优于现有的前馈基线,并且通过可选的后优化阶段,超越了逐场景优化方法,同时运行速度提高了几个数量级。
🔬 方法详解
问题定义:现有动态场景重建方法通常需要精确的相机位姿信息,或者只能处理单目视频输入。而无需位姿的多视角重建方法则通常只适用于静态场景。逐场景优化方法虽然可以处理动态场景和未知位姿,但计算成本非常高,难以满足实时性需求。因此,如何在未知相机位姿的情况下,利用多视角视频进行高效的动态场景重建是一个关键问题。
核心思路:NoPo4D的核心思路是将4D高斯运动分解为2D图像平面上的像素位移(光流)和深度变化。通过这种分解,可以直接利用光流作为监督信号,而无需依赖精确的相机位姿信息。这种方法避免了传统方法中可微渲染对位姿精度的依赖,也避免了对3D运动真值的需求,从而实现了无位姿的动态场景重建。
技术框架:NoPo4D的整体框架包括以下几个主要模块:1) 预训练的几何骨干网络,用于提取初始的几何特征;2) 速度分解模块,将高斯运动分解为图像平面位移和深度变化;3) 双向运动编码器,用于跨视角和跨帧的特征聚合;4) 视角相关的不透明度模块,用于缓解跨视角和跨时间步的高斯错位;5) 高斯 Splatting渲染模块,用于将高斯参数渲染成图像。整个流程是前馈的,可以高效地进行动态场景重建。
关键创新:NoPo4D最重要的技术创新点在于其速度分解方法,将高斯运动分解为图像平面位移和深度变化。这种分解使得可以使用光流作为监督信号,从而避免了对精确相机位姿的依赖。与现有方法相比,NoPo4D无需进行复杂的位姿估计或优化,也无需依赖3D运动真值,从而大大简化了动态场景重建的流程。
关键设计:NoPo4D的关键设计包括:1) 使用预训练的几何骨干网络来提供初始的几何信息;2) 设计双向运动编码器来聚合跨视角和跨帧的特征,提高重建的鲁棒性;3) 引入视角相关的不透明度来缓解高斯错位问题;4) 使用光流作为监督信号,训练速度分解模块。损失函数包括光流损失、深度损失和渲染损失等。
🖼️ 关键图片
📊 实验亮点
NoPo4D在四个多视角动态基准测试中,始终优于现有的前馈基线方法。通过可选的后优化阶段,NoPo4D甚至可以超越逐场景优化方法,同时运行速度提高了几个数量级。这表明NoPo4D在动态场景重建的效率和精度方面都取得了显著的提升。
🎯 应用场景
NoPo4D在虚拟现实、增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。例如,可以用于创建沉浸式的虚拟现实体验,或者用于机器人对动态环境的感知和理解。该研究降低了动态场景三维重建对相机位姿的依赖,使得相关技术更容易部署在资源受限的设备上,促进了三维视觉技术在更广泛场景的应用。
📄 摘要(原文)
Recent feed-forward 3D gaussian splatting methods have made dramatic progress on individual aspects of 3D scene reconstruction, but no existing method jointly addresses dynamic content, multi-view input, and unknown camera poses in a single feed-forward pass. Methods that handle dynamics either require accurate camera poses or accept only monocular input; pose-free multi-view methods address only static scenes; and per-scene optimization methods bridge some of these gaps but at minutes-to-hours cost per scene. We introduce NoPo4D, the first feed-forward system that addresses this empty quadrant. Building on a pretrained geometry backbone and recent 4D Gaussian frameworks, NoPo4D introduces a velocity decomposition that splits Gaussian motion into per-pixel image-plane shifts and depth changes, allowing direct supervision from pseudo ground-truth optical flow on the 2D component. This sidesteps both the differentiable rendering that couples prior posed methods to pose accuracy and the 3D motion ground truth that prior pose-free methods require. The system is rounded out by a bidirectional motion encoder for cross-view and cross-frame feature aggregation, and view-dependent opacity that mitigates cross-view and cross-timestep Gaussian misalignments. On four multi-view dynamic benchmarks, NoPo4D consistently outperforms prior feed-forward baselines, and with an optional post-optimization stage surpasses per-scene optimization methods, while running orders of magnitude faster.