Any4D: Unified Feed-Forward Metric 4D Reconstruction

📄 arXiv: 2512.10935v1 📥 PDF

作者: Jay Karhade, Nikhil Keetha, Yuchen Zhang, Tanisha Gupta, Akash Sharma, Sebastian Scherer, Deva Ramanan

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-12-11

备注: Project Website: https://any-4d.github.io/


💡 一句话要点

Any4D:统一前馈式度量4D重建框架

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 4D重建 多视角学习 Transformer网络 场景流估计 多模态融合

📋 核心要点

  1. 现有4D重建方法通常局限于双视角场景流或稀疏点跟踪,且难以融合多种传感器数据。
  2. Any4D采用模块化表示,利用自中心和本中心因素编码4D场景,实现多模态数据融合。
  3. 实验表明,Any4D在精度上提升2-3倍,计算效率提升15倍,为下游应用提供可能。

📝 摘要(中文)

本文提出Any4D,一个可扩展的多视角Transformer,用于度量尺度下的稠密前馈式4D重建。Any4D直接生成N帧的逐像素运动和几何预测,这与以往主要关注双视角稠密场景流或稀疏3D点跟踪的工作不同。此外,与其他最近的单目RGB视频4D重建方法不同,Any4D可以处理额外的模态和传感器数据,例如RGB-D帧、基于IMU的自运动和雷达多普勒测量(如果可用)。该框架的关键创新在于4D场景的模块化表示;具体来说,每个视角的4D预测使用以局部相机坐标表示的各种自中心因素(深度图和相机内参)和以全局世界坐标表示的本中心因素(相机外参和场景流)进行编码。我们在各种设置中实现了卓越的性能——在准确性(误差降低2-3倍)和计算效率(速度提高15倍)方面,为多个下游应用开辟了道路。

🔬 方法详解

问题定义:现有4D重建方法主要集中在双视角稠密场景流或稀疏3D点跟踪,难以处理多视角和多模态数据,例如RGB-D、IMU和雷达信息。这些方法在精度、效率和通用性方面存在局限性。

核心思路:Any4D的核心思路是采用一种模块化的4D场景表示方法,将场景分解为自中心因素(如深度图和相机内参,在局部相机坐标系下表示)和本中心因素(如相机外参和场景流,在全局世界坐标系下表示)。这种解耦的设计使得Any4D能够灵活地融合来自不同传感器的数据,并进行高效的4D重建。

技术框架:Any4D采用一个多视角Transformer架构,输入为多帧图像以及可选的RGB-D数据、IMU数据和雷达数据。该网络首先提取每个视角的特征,然后利用Transformer进行跨视角的信息融合。网络输出每个像素的运动和几何预测,包括深度图、场景流和相机位姿。这些预测分别在局部相机坐标系和全局世界坐标系下表示。

关键创新:Any4D的关键创新在于其模块化的4D场景表示方法,以及能够处理多种传感器数据的能力。通过将场景分解为自中心和本中心因素,Any4D能够有效地融合来自不同视角的和不同模态的信息,从而实现更准确和鲁棒的4D重建。此外,Any4D采用前馈式架构,避免了迭代优化,提高了计算效率。

关键设计:Any4D使用Transformer进行跨视角信息融合,并设计了专门的损失函数来约束深度图、场景流和相机位姿的预测。损失函数包括光度一致性损失、几何一致性损失和运动一致性损失。网络结构和参数设置根据不同的数据集和任务进行调整。具体细节未在摘要中详细说明,需要参考论文全文。

📊 实验亮点

Any4D在多个数据集上取得了显著的性能提升。摘要中提到,Any4D在精度上比现有方法提升了2-3倍(误差降低2-3倍),计算效率提升了15倍。这些结果表明Any4D在4D重建方面具有显著的优势。

🎯 应用场景

Any4D具有广泛的应用前景,包括自动驾驶、机器人导航、增强现实和虚拟现实等领域。它可以用于构建动态场景的三维模型,估计物体的运动轨迹,以及进行场景理解和预测。该研究的实际价值在于提高了4D重建的精度和效率,为下游应用提供了更可靠的数据基础。未来,Any4D可以进一步扩展到更大规模的场景和更复杂的动态环境。

📄 摘要(原文)

We present Any4D, a scalable multi-view transformer for metric-scale, dense feed-forward 4D reconstruction. Any4D directly generates per-pixel motion and geometry predictions for N frames, in contrast to prior work that typically focuses on either 2-view dense scene flow or sparse 3D point tracking. Moreover, unlike other recent methods for 4D reconstruction from monocular RGB videos, Any4D can process additional modalities and sensors such as RGB-D frames, IMU-based egomotion, and Radar Doppler measurements, when available. One of the key innovations that allows for such a flexible framework is a modular representation of a 4D scene; specifically, per-view 4D predictions are encoded using a variety of egocentric factors (depthmaps and camera intrinsics) represented in local camera coordinates, and allocentric factors (camera extrinsics and scene flow) represented in global world coordinates. We achieve superior performance across diverse setups - both in terms of accuracy (2-3X lower error) and compute efficiency (15X faster), opening avenues for multiple downstream applications.