LiveStre4m: Feed-Forward Live Streaming of Novel Views from Unposed Multi-View Video
作者: Pedro Quesado, Erkut Akdag, Yasaman Kashefbahrami, Willem Menu, Egor Bondarev
分类: cs.CV
发布日期: 2026-04-08
🔗 代码/项目: GITHUB
💡 一句话要点
LiveStre4m:一种从无位姿多视角视频实时生成新视角的Feed-Forward方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 实时渲染 多视角视频 视觉Transformer 扩散模型 相机位姿估计 动态场景重建
📋 核心要点
- 现有动态场景重建方法依赖精确相机参数且优化耗时,难以满足实时新视角合成的需求。
- LiveStre4m提出一种feed-forward模型,结合多视角Transformer重建场景,扩散-Transformer保证时序一致性。
- 该方法仅需少量无位姿输入,重建速度达0.07秒/帧,显著优于传统优化方法,推动了实时NVS的应用。
📝 摘要(中文)
本文提出了一种名为LiveStre4m的新视角视频实时生成方法,旨在解决从无位姿多视角视频进行实时新视角合成(NVS)的挑战。现有动态场景表示方法通常需要真实的相机参数,并涉及耗时的优化过程(约2.67秒),这使得它们不适用于实时流媒体场景。LiveStre4m是一个feed-forward模型,用于从无位姿的稀疏多视角输入进行实时NVS。该方法引入了一个多视角视觉Transformer用于关键帧3D场景重建,并结合了一个扩散-Transformer插值模块,以确保时间一致性和稳定的流传输。此外,还提出了一个相机位姿预测器模块,可以直接从RGB图像有效地估计位姿和内参,从而消除了对已知相机标定信息的依赖。我们的方法能够使用至少两个同步的无位姿输入流实时生成时间一致的新视角视频流。LiveStre4m在$1024 imes 768$分辨率下实现了平均每帧0.07秒的重建时间,在运行时间上优于基于优化的动态场景表示方法几个数量级。这些结果表明,LiveStre4m使实时NVS流在实际环境中可行,标志着朝着可部署的实时新视角合成系统迈出了重要一步。
🔬 方法详解
问题定义:论文旨在解决从无位姿多视角视频中实时生成新视角视频的问题。现有方法通常需要已知的相机内外参数,并且依赖于耗时的优化过程来重建动态场景,这使得它们无法应用于实时流媒体场景。这些方法的痛点在于计算复杂度高,对相机参数的依赖性强,难以满足实时性和实用性的要求。
核心思路:LiveStre4m的核心思路是利用一个完全前馈的网络结构,避免耗时的优化过程,从而实现实时的新视角合成。通过引入多视角视觉Transformer进行关键帧3D场景重建,并结合扩散-Transformer插值模块来保证时间一致性。此外,使用相机位姿预测器直接从RGB图像估计相机参数,摆脱了对预先标定的相机参数的依赖。
技术框架:LiveStre4m的整体框架包含以下几个主要模块:1) 多视角视觉Transformer:用于从多视角图像中重建关键帧的3D场景表示。2) 扩散-Transformer插值模块:用于在关键帧之间进行插值,生成时间上连续的新视角视频。3) 相机位姿预测器:直接从RGB图像中估计相机的位姿和内参。整个流程是feed-forward的,即数据依次通过各个模块,无需迭代优化。
关键创新:LiveStre4m最重要的技术创新点在于其完全前馈的网络结构和相机位姿预测器的引入。与传统的基于优化的方法不同,LiveStre4m避免了耗时的迭代优化过程,从而实现了实时性能。相机位姿预测器消除了对预先标定的相机参数的依赖,使得该方法更加灵活和易于部署。
关键设计:多视角视觉Transformer的具体结构未知,但推测使用了自注意力机制来融合多视角信息。扩散-Transformer插值模块可能采用了类似扩散模型的训练方式,以生成高质量的插值帧。相机位姿预测器可能是一个卷积神经网络,通过回归的方式预测相机的位姿和内参。损失函数的设计未知,但推测包括重建损失、时间一致性损失和位姿预测损失。
🖼️ 关键图片
📊 实验亮点
LiveStre4m在$1024 imes 768$分辨率下实现了平均每帧0.07秒的重建时间,相比于传统的基于优化的动态场景表示方法,在运行时间上提升了几个数量级。该方法仅使用两个同步的无位姿输入流,即可生成时间一致的新视角视频流。这些结果表明,LiveStre4m在实时性和实用性方面都取得了显著的进展。
🎯 应用场景
LiveStre4m具有广泛的应用前景,包括虚拟现实(VR)、增强现实(AR)、远程呈现、体育赛事直播、电影制作等领域。该技术可以用于创建沉浸式的用户体验,例如让用户能够从任意视角观看体育比赛或电影。此外,LiveStre4m还可以用于远程协作,让位于不同地点的用户能够实时共享3D场景,并进行交互。该技术有望改变人们观看和参与媒体内容的方式。
📄 摘要(原文)
Live-streaming Novel View Synthesis (NVS) from unposed multi-view video remains an open challenge in a wide range of applications. Existing methods for dynamic scene representation typically require ground-truth camera parameters and involve lengthy optimizations ($\approx 2.67$s), which makes them unsuitable for live streaming scenarios. To address this issue, we propose a novel viewpoint video live-streaming method (LiveStre4m), a feed-forward model for real-time NVS from unposed sparse multi-view inputs. LiveStre4m introduces a multi-view vision transformer for keyframe 3D scene reconstruction coupled with a diffusion-transformer interpolation module that ensures temporal consistency and stable streaming. In addition, a Camera Pose Predictor module is proposed to efficiently estimate both poses and intrinsics directly from RGB images, removing the reliance on known camera calibration information. Our approach enables temporally consistent novel-view video streaming in real-time using as few as two synchronized unposed input streams. LiveStre4m attains an average reconstruction time of $ 0.07$s per-frame at $ 1024 \times 768$ resolution, outperforming the optimization-based dynamic scene representation methods by orders of magnitude in runtime. These results demonstrate that LiveStre4m makes real-time NVS streaming feasible in practical settings, marking a substantial step toward deployable live novel-view synthesis systems. Code available at: https://github.com/pedro-quesado/LiveStre4m