AIR: Amortized Image Reconstruction Framework for Self-Supervised Feed-Forward 2D Gaussian Splatting

📄 arXiv: 2605.20820v1 📥 PDF

作者: Zhaojie Zeng, Yuesong Wang, Yawei Luo, Tao Guan

分类: cs.CV

发布日期: 2026-05-20

备注: preprint version

🔗 代码/项目: GITHUB


💡 一句话要点

提出AIR:一种自监督前馈2D高斯溅射图像重建框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 2D高斯溅射 图像重建 自监督学习 前馈网络 残差网络 图像压缩 阶段控制

📋 核心要点

  1. 现有2D高斯溅射图像重建方法计算成本高,依赖手工先验,缺乏效率。
  2. AIR通过自监督前馈网络,将迭代高斯拟合过程分摊到单次网络推理中,无需逐图像优化。
  3. 实验表明,AIR在重建质量上优于现有方法,编码时间显著降低至160-300毫秒。

📝 摘要(中文)

2D高斯溅射为图像重建提供了一种高效的显式表示,但现有方法仍然需要昂贵的逐图像迭代优化,或者依赖于手工设计的先验知识进行图元分配。我们提出了AIR,一个自监督前馈框架,它将迭代高斯拟合分摊到单个网络传递中,从而消除了逐图像的测试时优化。AIR采用了一种阶段性的残差架构,该架构从重建残差中逐步预测额外的高斯图元,以及一个显式的阶段控制机制,该机制仅在欠重建区域激活新的图元。一种预测-优化-提炼训练策略通过将短时程优化的高斯增量提炼回预测器来稳定多阶段预测。然后,稳定的预测器在各个阶段进行联合微调,并配备一个图像自适应量化器,用于紧凑的高斯存储。在Kodak和DIV2K上的实验表明,AIR实现了比代表性的基于高斯的方法更好的重建质量,同时将编码时间减少到160-300毫秒。

🔬 方法详解

问题定义:现有基于2D高斯溅射的图像重建方法,通常需要对每个图像进行耗时的迭代优化,或者依赖于手工设计的先验知识来分配高斯图元。这限制了其在实际应用中的效率和灵活性。因此,如何降低计算成本,并避免手工先验依赖,是本文要解决的关键问题。

核心思路:AIR的核心思路是将迭代的高斯拟合过程“分摊”到一个前馈神经网络中。通过训练网络直接预测高斯参数,避免了测试时对每个图像进行迭代优化。此外,采用自监督学习的方式,无需人工标注数据,降低了数据获取成本。

技术框架:AIR的整体架构是一个多阶段的残差网络。首先,网络预测初始的高斯图元。然后,后续的阶段根据前一阶段的重建残差,逐步预测额外的高斯图元。一个显式的阶段控制机制用于控制每个阶段激活的图元数量,只在重建不足的区域添加新的图元。训练过程采用“预测-优化-提炼”策略,稳定多阶段预测。最后,使用图像自适应量化器进行高斯参数的压缩。

关键创新:AIR的关键创新在于将迭代优化过程转化为单次前馈预测,极大地提高了编码效率。同时,自监督学习和残差架构的设计,使得网络能够逐步逼近最优的高斯表示,并有效地处理复杂的图像内容。阶段控制机制则避免了过度拟合,提高了泛化能力。

关键设计:AIR的关键设计包括:1) 阶段性的残差架构,允许逐步细化高斯表示;2) 显式的阶段控制机制,根据重建残差动态调整图元数量;3) 预测-优化-提炼训练策略,通过将优化后的高斯增量反向传递给预测器,稳定训练过程;4) 图像自适应量化器,用于压缩高斯参数,减少存储空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AIR在Kodak和DIV2K数据集上取得了优于现有基于高斯方法的重建质量,同时将编码时间降低到160-300毫秒。与需要迭代优化的基线方法相比,AIR实现了显著的加速,并且避免了手工先验的依赖。

🎯 应用场景

AIR框架可应用于图像压缩、图像编辑、新视角合成等领域。其高效的编码速度和良好的重建质量,使其在实时渲染、移动设备图像处理等场景中具有潜在的应用价值。未来,可以进一步探索其在视频压缩、三维重建等领域的应用。

📄 摘要(原文)

2D Gaussian splatting provides an efficient explicit representation for image reconstruction, but existing methods still require costly per-image iterative optimization or rely on handcrafted priors for primitive allocation. We present AIR, a self-supervised feed-forward framework that amortizes iterative Gaussian fitting into a single network pass, eliminating per-image test-time optimization. AIR adopts a stage-wise residual architecture that progressively predicts additional Gaussian primitives from reconstruction residuals, together with an explicit Stage Control mechanism that activates new primitives only in under-reconstructed regions. A Predict--Optimize--Distill training strategy stabilizes multi-stage prediction by distilling short-horizon optimized Gaussian increments back into the predictor. The stabilized predictor is then jointly finetuned across stages and equipped with an image-adaptive quantizer for compact Gaussian storage. Experiments on Kodak and DIV2K show that AIR achieves better reconstruction quality than representative Gaussian-based baselines while reducing encoding time to 160--300\,ms. Code: https://github.com/whoiszzj/AIR.git