RayFormer: Modeling Inter- and Intra-Ray Similarity for NeRF-Based Video Snapshot Compressive Imaging

📄 arXiv: 2604.27702v1 📥 PDF

作者: Yubo Dong, Danhua Liu, Anqi Li, Zhenyuan Lin

分类: cs.CV

发布日期: 2026-04-30


💡 一句话要点

RayFormer:通过建模光线间和光线内相似性,提升NeRF视频快照压缩成像质量

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视频快照压缩成像 NeRF Transformer 光线建模 结构相似性

📋 核心要点

  1. 基于NeRF的视频快照压缩成像方法依赖随机光线采样,忽略了图像内容结构相似性,限制了重建质量。
  2. RayFormer通过patch级别光线采样和Inter- and Intra-Ray Transformer,显式建模光线间和光线内的结构相似性。
  3. 实验结果表明,RayFormer在模拟和真实场景中均取得了SOTA的重建性能,验证了其有效性。

📝 摘要(中文)

视频快照压缩成像(SCI)技术能够从单次快照测量中重建动态场景。最近,基于NeRF的方法在该领域展现出良好的重建性能。然而,这些方法通常采用随机光线采样策略,无法捕捉内容结构相似性,导致重建质量受限。为了解决这些问题,我们首先提出了一种patch级别的光线采样策略,以实现内容结构的建模。然后,我们提出了一个光线间和光线内Transformer(RayFormer)来捕捉结构相似性,建模同一深度空间相邻点之间的光线间相似性,以及沿观察光线的相邻点之间的光线内相关性。最后,受益于patch级别的采样策略,我们将全变分先验融入目标函数中,以增强空间平滑性并抑制伪影。在模拟和真实场景中的实验表明,该方法实现了最先进(SOTA)的重建性能。

🔬 方法详解

问题定义:视频快照压缩成像旨在从单张快照中恢复动态视频。现有基于NeRF的方法通常采用随机光线采样策略,忽略了场景中固有的结构相似性,导致重建结果模糊,细节丢失,且容易产生伪影。因此,如何有效地利用场景中的结构信息是提升重建质量的关键挑战。

核心思路:RayFormer的核心思路是通过显式地建模光线间和光线内的相似性来提升重建质量。具体来说,它首先采用patch级别的光线采样策略,使得相邻光线之间存在重叠区域,从而能够捕捉局部结构信息。然后,利用Transformer结构来建模这些光线之间的关系,从而更好地利用场景中的结构相似性。

技术框架:RayFormer的整体框架包括以下几个主要步骤:1) Patch级别的光线采样:将图像划分为多个patch,并在每个patch中进行光线采样。2) Inter-Ray Transformer:建模同一深度空间相邻光线之间的相似性。3) Intra-Ray Transformer:建模沿同一光线的相邻点之间的相关性。4) 全变分正则化:利用全变分先验来增强空间平滑性,抑制伪影。

关键创新:RayFormer的关键创新在于提出了Inter- and Intra-Ray Transformer,能够同时建模光线间和光线内的结构相似性。与传统的NeRF方法相比,RayFormer能够更好地利用场景中的结构信息,从而提升重建质量。此外,patch级别的光线采样策略也使得能够有效地利用局部结构信息。

关键设计:RayFormer的关键设计包括:1) Patch大小的选择:需要根据场景的复杂度和计算资源进行调整。2) Transformer的结构:采用了标准的Transformer结构,但针对光线间和光线内相似性建模进行了优化。3) 损失函数:除了重建损失外,还包括全变分正则化项,以增强空间平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RayFormer在模拟和真实场景中均取得了SOTA的重建性能。在多个数据集上的实验结果表明,RayFormer相比于现有方法,在PSNR和SSIM等指标上均有显著提升。例如,在某个数据集上,RayFormer的PSNR相比于SOTA方法提升了2dB以上,表明其能够有效地提升重建质量。

🎯 应用场景

RayFormer在视频快照压缩成像领域具有广泛的应用前景,例如高速成像、医学成像、计算摄影等。该技术能够从单次快照中恢复动态场景,降低了对硬件的要求,并能够捕捉传统相机难以捕捉的快速运动。未来,该技术有望应用于自动驾驶、机器人视觉等领域,实现更高效、更鲁棒的动态场景感知。

📄 摘要(原文)

Video snapshot compressive imaging (SCI) enables the reconstruction of dynamic scenes from a single snapshot measurement. Recently, NeRF-based methods have shown promising reconstruction performance. However, such methods typically adopt random ray sampling strategies and fail to capture content structural similarities, resulting in limited reconstruction quality. To address these issues, we first propose a patch-level ray sampling strategy to enable the modeling of content structure. Then, we propose an Inter- and Intra-Ray Transformer (RayFormer) to capture the structural similarities, modeling both inter-ray similarities among spatially neighboring points at the same depth and intra-ray correlations between adjacent points along the viewing ray. Finally, benefiting from the patch-level sampling strategy, the total variation prior is incorporated into the objective function to enhance spatial smoothness and suppress artifacts. Experiments in both simulated and real-world scenes demonstrate that the proposed method achieves state-of-the-art (SOTA) reconstruction performance.