ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

作者: Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang

分类: cs.CV

发布日期: 2026-03-10

💡 一句话要点

ReCoSplat：基于渲染对比的自回归前馈高斯溅射，用于在线新视角合成。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 高斯溅射 自回归模型 渲染对比 位姿估计 KV缓存压缩 在线重建

📋 核心要点

在线新视角合成面临从无位姿序列观测中进行鲁棒场景重建的挑战，现有方法难以兼顾训练稳定性和推理准确性。
ReCoSplat通过引入渲染对比(ReCo)模块，利用渲染结果与观测的差异作为反馈信号，补偿位姿误差，稳定训练过程。
提出的混合KV缓存压缩策略，通过早期层截断和块级选择性保留，显著降低了长序列处理中的内存占用，性能达到SOTA。

📝 摘要（中文）

在线新视角合成极具挑战，它需要从连续的、通常是无位姿的观测中进行鲁棒的场景重建。我们提出了ReCoSplat，一个自回归前馈高斯溅射模型，支持有位姿或无位姿的输入，以及有或没有相机内参。虽然使用相机位姿组装局部高斯分布比规范空间预测更具扩展性，但这在训练期间产生了一个两难问题：使用真实位姿确保了稳定性，但在推理时使用预测位姿会导致分布不匹配。为了解决这个问题，我们引入了一个渲染对比（ReCo）模块。ReCo从预测的视点渲染当前的重建，并将其与传入的观测进行比较，从而提供一个稳定的调节信号，以补偿位姿误差。为了支持长序列，我们提出了一种混合KV缓存压缩策略，将早期层截断与块级选择性保留相结合，从而将100+帧的KV缓存大小减少了90%以上。ReCoSplat在不同的输入设置下，在分布内和分布外的基准测试中都实现了最先进的性能。代码和预训练模型将会发布。

🔬 方法详解

问题定义：论文旨在解决在线新视角合成中，从连续无位姿图像序列重建场景的问题。现有方法在训练时依赖真实位姿，但在推理时使用预测位姿，导致训练和推理阶段存在分布不匹配，影响合成质量。此外，处理长序列时，计算和存储成本高昂，限制了应用范围。

核心思路：论文的核心思路是利用渲染对比（Render-and-Compare, ReCo）模块，将渲染结果与真实观测进行比较，从而提供一个稳定的反馈信号，补偿预测位姿的误差。这种方式使得模型在训练时能够适应预测位姿带来的不确定性，从而缓解训练和推理之间的分布差异。同时，采用混合KV缓存压缩策略来降低长序列的计算和存储成本。

技术框架：ReCoSplat的整体框架是一个自回归前馈高斯溅射模型。该模型接收图像序列作为输入，并逐步重建场景。主要包含以下几个模块：1) 高斯溅射模块，用于表示和渲染场景；2) 位姿预测模块，用于估计相机位姿；3) 渲染对比（ReCo）模块，用于比较渲染结果和真实观测，提供反馈信号；4) 混合KV缓存压缩模块，用于降低长序列的计算和存储成本。

关键创新：论文的关键创新在于引入了渲染对比（ReCo）模块。该模块通过比较渲染结果和真实观测，提供了一个稳定的反馈信号，补偿了预测位姿的误差。这使得模型在训练时能够适应预测位姿带来的不确定性，从而缓解了训练和推理之间的分布差异。此外，混合KV缓存压缩策略也是一个重要的创新，它通过早期层截断和块级选择性保留，显著降低了长序列的计算和存储成本。

关键设计：ReCo模块的关键设计在于损失函数的设计，它衡量了渲染图像和真实图像之间的差异，并将其作为反馈信号用于优化模型。混合KV缓存压缩策略的关键设计在于如何选择性地保留重要的KV缓存，同时丢弃不重要的KV缓存。论文采用了一种基于注意力的选择机制，根据每个KV缓存的重要性程度来决定是否保留它。

🖼️ 关键图片

📊 实验亮点

ReCoSplat在多个数据集上取得了SOTA性能，尤其是在处理无位姿输入和长序列时。实验结果表明，ReCo模块能够有效补偿位姿误差，提高合成质量。混合KV缓存压缩策略能够将KV缓存大小减少90%以上，从而显著降低了长序列的计算和存储成本。具体性能数据需要在论文中查找。

🎯 应用场景

ReCoSplat在机器人导航、增强现实、虚拟现实、自动驾驶等领域具有广泛的应用前景。它可以用于构建动态场景的三维模型，从而实现更逼真的虚拟体验和更智能的机器人行为。该技术还可以应用于电影制作、游戏开发等领域，提高内容创作的效率和质量。

📄 摘要（原文）

Online novel view synthesis remains challenging, requiring robust scene reconstruction from sequential, often unposed, observations. We present ReCoSplat, an autoregressive feed-forward Gaussian Splatting model supporting posed or unposed inputs, with or without camera intrinsics. While assembling local Gaussians using camera poses scales better than canonical-space prediction, it creates a dilemma during training: using ground-truth poses ensures stability but causes a distribution mismatch when predicted poses are used at inference. To address this, we introduce a Render-and-Compare (ReCo) module. ReCo renders the current reconstruction from the predicted viewpoint and compares it with the incoming observation, providing a stable conditioning signal that compensates for pose errors. To support long sequences, we propose a hybrid KV cache compression strategy combining early-layer truncation with chunk-level selective retention, reducing the KV cache size by over 90% for 100+ frames. ReCoSplat achieves state-of-the-art performance across different input settings on both in- and out-of-distribution benchmarks. Code and pretrained models will be released. Our project page is at https://freemancheng.com/ReCoSplat .

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理