RASLF: Representation-Aware State Space Model for Light Field Super-Resolution
作者: Zeqiang Wei, Kai Jin, Kuan Song, Xiuzhuang Zhou, Wenlong Chen, Min Xu
分类: cs.CV, cs.AI
发布日期: 2026-03-17
备注: 10 pages, 5 figures
💡 一句话要点
RASLF:提出表征感知状态空间模型,用于光场超分辨率重建
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 光场超分辨率 状态空间模型 表征学习 几何细化 非对称扫描
📋 核心要点
- 现有光场超分辨率方法难以充分利用不同光场表征的互补信息,导致重建质量下降。
- RASLF通过显式建模不同光场表征之间的结构相关性,提升超分辨率重建效果。
- 实验表明,RASLF在保证计算效率的同时,实现了最高的重建精度。
📝 摘要(中文)
当前基于状态空间模型(SSM)的光场超分辨率(LFSR)方法通常无法充分利用各种光场表征之间的互补性,导致精细纹理的丢失和视点间的几何错位。为了解决这些问题,我们提出了RASLF,一个表征感知的状态空间框架,它显式地建模了多个光场表征之间的结构相关性。具体来说,我们创建了一个渐进几何细化(PGR)块,它使用全景极线表征来显式地编码多视点视差差异,从而实现不同光场表征之间的融合。此外,我们引入了一种表征感知非对称扫描(RAAS)机制,该机制基于不同表征空间的物理特性动态调整扫描路径,通过路径剪枝优化性能和效率之间的平衡。此外,双锚聚合(DAA)模块改进了分层特征流,减少了冗余的深层特征,并优先考虑重要的重建信息。在各种公共基准上的实验表明,RASLF实现了最高的重建精度,同时保持了很高的计算效率。
🔬 方法详解
问题定义:现有基于状态空间模型的光场超分辨率方法,未能充分挖掘不同光场表征(如角度视图、极线平面图像等)之间的互补信息,导致重建结果中出现纹理细节丢失和视点间的几何错位。这些方法通常采用固定的扫描方式处理光场数据,忽略了不同表征空间的物理特性差异,效率有待提升。
核心思路:RASLF的核心在于提出一种表征感知的状态空间框架,通过显式地建模不同光场表征之间的结构相关性,并根据不同表征的特性动态调整处理方式,从而更有效地利用光场信息,提升超分辨率重建的质量和效率。
技术框架:RASLF的整体框架包含三个主要模块:渐进几何细化(PGR)块、表征感知非对称扫描(RAAS)机制和双锚聚合(DAA)模块。PGR块利用全景极线表征编码多视点视差,实现不同表征的融合。RAAS机制根据不同表征空间的物理特性动态调整扫描路径。DAA模块改进分层特征流,减少冗余特征,突出重要信息。
关键创新:RASLF的关键创新在于:1) 提出渐进几何细化(PGR)块,利用全景极线表征显式编码多视点视差,实现不同光场表征的有效融合。2) 引入表征感知非对称扫描(RAAS)机制,根据不同表征的物理特性动态调整扫描路径,优化性能和效率。3) 设计双锚聚合(DAA)模块,改进分层特征流,减少冗余特征,提升重建效果。
关键设计:PGR块使用多个卷积层和残差连接进行特征提取和融合。RAAS机制通过学习一个门控机制来动态调整扫描路径,实现路径剪枝。DAA模块使用两个锚点来聚合不同层次的特征,并使用注意力机制来选择重要的特征信息。损失函数方面,可能采用了L1或L2损失函数,以及感知损失或对抗损失来提升重建质量(具体损失函数细节未知)。网络结构细节(如卷积核大小、通道数等)未知。
🖼️ 关键图片
📊 实验亮点
RASLF在多个公开光场数据集上取得了state-of-the-art的性能。实验结果表明,RASLF在重建精度上显著优于现有的光场超分辨率方法,同时保持了较高的计算效率。具体的性能提升数据(如PSNR、SSIM等指标)和对比基线未知,但摘要强调了其在精度和效率上的优势。
🎯 应用场景
RASLF在光场成像、虚拟现实、增强现实、自动驾驶等领域具有广泛的应用前景。高质量的光场超分辨率重建可以提升VR/AR设备的沉浸感和真实感,改善自动驾驶系统的环境感知能力,并为科学研究提供更清晰的光场数据。
📄 摘要(原文)
Current SSM-based light field super-resolution (LFSR) methods often fail to fully leverage the complementarity among various LF representations, leading to the loss of fine textures and geometric misalignments across views. To address these issues, we propose RASLF, a representation-aware state-space framework that explicitly models structural correlations across multiple LF representations. Specifically, a Progressive Geometric Refinement (PGR) block is created that uses a panoramic epipolar representation to explicitly encode multi-view parallax differences, thereby enabling integration across different LF representations. Furthermore, we introduce a Representation Aware Asymmetric Scanning (RAAS) mechanism that dynamically adjusts scanning paths based on the physical properties of different representation spaces, optimizing the balance between performance and efficiency through path pruning. Additionally, a Dual-Anchor Aggregation (DAA) module improves hierarchical feature flow, reducing redundant deeplayer features and prioritizing important reconstruction information. Experiments on various public benchmarks show that RASLF achieves the highest reconstruction accuracy while remaining highly computationally efficient.