ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare
作者: Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang
分类: cs.CV
发布日期: 2026-03-10
💡 一句话要点
ReCoSplat:基于渲染对比的自回归前馈高斯溅射,用于在线新视角合成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 高斯溅射 自回归模型 渲染对比 位姿估计 KV缓存压缩 在线重建
📋 核心要点
- 在线新视角合成面临从无位姿序列观测中进行鲁棒场景重建的挑战,现有方法难以兼顾训练稳定性和推理准确性。
- ReCoSplat通过引入渲染对比(ReCo)模块,利用渲染结果与观测的差异作为反馈信号,补偿位姿误差,稳定训练过程。
- 提出的混合KV缓存压缩策略,通过早期层截断和块级选择性保留,显著降低了长序列处理中的内存占用,性能达到SOTA。
📝 摘要(中文)
在线新视角合成极具挑战,它需要从连续的、通常是无位姿的观测中进行鲁棒的场景重建。我们提出了ReCoSplat,一个自回归前馈高斯溅射模型,支持有位姿或无位姿的输入,以及有或没有相机内参。虽然使用相机位姿组装局部高斯分布比规范空间预测更具扩展性,但这在训练期间产生了一个两难问题:使用真实位姿确保了稳定性,但在推理时使用预测位姿会导致分布不匹配。为了解决这个问题,我们引入了一个渲染对比(ReCo)模块。ReCo从预测的视点渲染当前的重建,并将其与传入的观测进行比较,从而提供一个稳定的调节信号,以补偿位姿误差。为了支持长序列,我们提出了一种混合KV缓存压缩策略,将早期层截断与块级选择性保留相结合,从而将100+帧的KV缓存大小减少了90%以上。ReCoSplat在不同的输入设置下,在分布内和分布外的基准测试中都实现了最先进的性能。代码和预训练模型将会发布。
🔬 方法详解
问题定义:论文旨在解决在线新视角合成中,从连续无位姿图像序列重建场景的问题。现有方法在训练时依赖真实位姿,但在推理时使用预测位姿,导致训练和推理阶段存在分布不匹配,影响合成质量。此外,处理长序列时,计算和存储成本高昂,限制了应用范围。
核心思路:论文的核心思路是利用渲染对比(Render-and-Compare, ReCo)模块,将渲染结果与真实观测进行比较,从而提供一个稳定的反馈信号,补偿预测位姿的误差。这种方式使得模型在训练时能够适应预测位姿带来的不确定性,从而缓解训练和推理之间的分布差异。同时,采用混合KV缓存压缩策略来降低长序列的计算和存储成本。
技术框架:ReCoSplat的整体框架是一个自回归前馈高斯溅射模型。该模型接收图像序列作为输入,并逐步重建场景。主要包含以下几个模块:1) 高斯溅射模块,用于表示和渲染场景;2) 位姿预测模块,用于估计相机位姿;3) 渲染对比(ReCo)模块,用于比较渲染结果和真实观测,提供反馈信号;4) 混合KV缓存压缩模块,用于降低长序列的计算和存储成本。
关键创新:论文的关键创新在于引入了渲染对比(ReCo)模块。该模块通过比较渲染结果和真实观测,提供了一个稳定的反馈信号,补偿了预测位姿的误差。这使得模型在训练时能够适应预测位姿带来的不确定性,从而缓解了训练和推理之间的分布差异。此外,混合KV缓存压缩策略也是一个重要的创新,它通过早期层截断和块级选择性保留,显著降低了长序列的计算和存储成本。
关键设计:ReCo模块的关键设计在于损失函数的设计,它衡量了渲染图像和真实图像之间的差异,并将其作为反馈信号用于优化模型。混合KV缓存压缩策略的关键设计在于如何选择性地保留重要的KV缓存,同时丢弃不重要的KV缓存。论文采用了一种基于注意力的选择机制,根据每个KV缓存的重要性程度来决定是否保留它。
🖼️ 关键图片
📊 实验亮点
ReCoSplat在多个数据集上取得了SOTA性能,尤其是在处理无位姿输入和长序列时。实验结果表明,ReCo模块能够有效补偿位姿误差,提高合成质量。混合KV缓存压缩策略能够将KV缓存大小减少90%以上,从而显著降低了长序列的计算和存储成本。具体性能数据需要在论文中查找。
🎯 应用场景
ReCoSplat在机器人导航、增强现实、虚拟现实、自动驾驶等领域具有广泛的应用前景。它可以用于构建动态场景的三维模型,从而实现更逼真的虚拟体验和更智能的机器人行为。该技术还可以应用于电影制作、游戏开发等领域,提高内容创作的效率和质量。
📄 摘要(原文)
Online novel view synthesis remains challenging, requiring robust scene reconstruction from sequential, often unposed, observations. We present ReCoSplat, an autoregressive feed-forward Gaussian Splatting model supporting posed or unposed inputs, with or without camera intrinsics. While assembling local Gaussians using camera poses scales better than canonical-space prediction, it creates a dilemma during training: using ground-truth poses ensures stability but causes a distribution mismatch when predicted poses are used at inference. To address this, we introduce a Render-and-Compare (ReCo) module. ReCo renders the current reconstruction from the predicted viewpoint and compares it with the incoming observation, providing a stable conditioning signal that compensates for pose errors. To support long sequences, we propose a hybrid KV cache compression strategy combining early-layer truncation with chunk-level selective retention, reducing the KV cache size by over 90% for 100+ frames. ReCoSplat achieves state-of-the-art performance across different input settings on both in- and out-of-distribution benchmarks. Code and pretrained models will be released. Our project page is at https://freemancheng.com/ReCoSplat .