No Pose, No Problem in 4D: Feed-Forward Dynamic Gaussians from Unposed Multi-View Videos

作者: Matteo Balice, Yanik Kunzi, Chenyangguang Zhang, Matteo Matteucci, Marc Pollefeys, Sungwhan Hong

分类: cs.CV

发布日期: 2026-05-21

备注: https://bralani.github.io/nopo4d_html/

💡 一句话要点

NoPo4D：首个从无位姿多视角视频中进行前馈动态高斯建模的系统

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 高斯Splatting 无位姿 多视角视频 光流监督

📋 核心要点

现有方法难以同时处理动态场景、多视角输入和未知相机位姿下的三维重建，限制了应用范围。
NoPo4D通过分解高斯运动为图像平面位移和深度变化，并利用光流进行监督，避免了对精确位姿和3D运动真值的依赖。
实验表明，NoPo4D在多视角动态场景重建中显著优于现有前馈方法，并能通过后优化超越逐场景优化方法。

📝 摘要（中文）

本文提出NoPo4D，首个前馈系统，旨在解决动态内容、多视角输入和未知相机位姿下的3D场景重建问题。现有方法在处理动态内容时需要精确的相机位姿或仅接受单目输入；无位姿多视角方法仅处理静态场景；而逐场景优化方法虽然弥补了一些差距，但耗时巨大。NoPo4D基于预训练的几何骨干网络和最新的4D高斯框架，引入了一种速度分解方法，将高斯运动分解为逐像素图像平面位移和深度变化，从而可以直接从伪真值光流中进行监督。这避免了可微渲染对位姿精度的依赖，以及对3D运动真值的需求。该系统还包括一个用于跨视角和跨帧特征聚合的双向运动编码器，以及用于缓解跨视角和跨时间步高斯错位的视角相关不透明度。在四个多视角动态基准测试中，NoPo4D始终优于现有的前馈基线，并且通过可选的后优化阶段，超越了逐场景优化方法，同时运行速度提高了几个数量级。

🔬 方法详解

问题定义：现有动态场景重建方法通常需要精确的相机位姿信息，或者只能处理单目视频输入。而无需位姿的多视角重建方法则通常只适用于静态场景。逐场景优化方法虽然可以处理动态场景和未知位姿，但计算成本非常高，难以满足实时性需求。因此，如何在未知相机位姿的情况下，利用多视角视频进行高效的动态场景重建是一个关键问题。

核心思路：NoPo4D的核心思路是将4D高斯运动分解为2D图像平面上的像素位移（光流）和深度变化。通过这种分解，可以直接利用光流作为监督信号，而无需依赖精确的相机位姿信息。这种方法避免了传统方法中可微渲染对位姿精度的依赖，也避免了对3D运动真值的需求，从而实现了无位姿的动态场景重建。

技术框架：NoPo4D的整体框架包括以下几个主要模块：1) 预训练的几何骨干网络，用于提取初始的几何特征；2) 速度分解模块，将高斯运动分解为图像平面位移和深度变化；3) 双向运动编码器，用于跨视角和跨帧的特征聚合；4) 视角相关的不透明度模块，用于缓解跨视角和跨时间步的高斯错位；5) 高斯 Splatting渲染模块，用于将高斯参数渲染成图像。整个流程是前馈的，可以高效地进行动态场景重建。

关键创新：NoPo4D最重要的技术创新点在于其速度分解方法，将高斯运动分解为图像平面位移和深度变化。这种分解使得可以使用光流作为监督信号，从而避免了对精确相机位姿的依赖。与现有方法相比，NoPo4D无需进行复杂的位姿估计或优化，也无需依赖3D运动真值，从而大大简化了动态场景重建的流程。

关键设计：NoPo4D的关键设计包括：1) 使用预训练的几何骨干网络来提供初始的几何信息；2) 设计双向运动编码器来聚合跨视角和跨帧的特征，提高重建的鲁棒性；3) 引入视角相关的不透明度来缓解高斯错位问题；4) 使用光流作为监督信号，训练速度分解模块。损失函数包括光流损失、深度损失和渲染损失等。

🖼️ 关键图片

📊 实验亮点

NoPo4D在四个多视角动态基准测试中，始终优于现有的前馈基线方法。通过可选的后优化阶段，NoPo4D甚至可以超越逐场景优化方法，同时运行速度提高了几个数量级。这表明NoPo4D在动态场景重建的效率和精度方面都取得了显著的提升。

🎯 应用场景

NoPo4D在虚拟现实、增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。例如，可以用于创建沉浸式的虚拟现实体验，或者用于机器人对动态环境的感知和理解。该研究降低了动态场景三维重建对相机位姿的依赖，使得相关技术更容易部署在资源受限的设备上，促进了三维视觉技术在更广泛场景的应用。

📄 摘要（原文）

Recent feed-forward 3D gaussian splatting methods have made dramatic progress on individual aspects of 3D scene reconstruction, but no existing method jointly addresses dynamic content, multi-view input, and unknown camera poses in a single feed-forward pass. Methods that handle dynamics either require accurate camera poses or accept only monocular input; pose-free multi-view methods address only static scenes; and per-scene optimization methods bridge some of these gaps but at minutes-to-hours cost per scene. We introduce NoPo4D, the first feed-forward system that addresses this empty quadrant. Building on a pretrained geometry backbone and recent 4D Gaussian frameworks, NoPo4D introduces a velocity decomposition that splits Gaussian motion into per-pixel image-plane shifts and depth changes, allowing direct supervision from pseudo ground-truth optical flow on the 2D component. This sidesteps both the differentiable rendering that couples prior posed methods to pose accuracy and the 3D motion ground truth that prior pose-free methods require. The system is rounded out by a bidirectional motion encoder for cross-view and cross-frame feature aggregation, and view-dependent opacity that mitigates cross-view and cross-timestep Gaussian misalignments. On four multi-view dynamic benchmarks, NoPo4D consistently outperforms prior feed-forward baselines, and with an optional post-optimization stage surpasses per-scene optimization methods, while running orders of magnitude faster.

No Pose, No Problem in 4D: Feed-Forward Dynamic Gaussians from Unposed Multi-View Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理