LFIC-DRASC: Deep Light Field Image Compression Using Disentangled Representation and Asymmetrical Strip Convolution

📄 arXiv: 2409.11711v1 📥 PDF

作者: Shiyu Feng, Yun Zhang, Linwei Zhu, Sam Kwong

分类: eess.IV, cs.CV

发布日期: 2024-09-18


💡 一句话要点

提出LFIC-DRASC,利用解耦表示和非对称条形卷积实现高效光场图像压缩。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 光场图像压缩 解耦表示学习 非对称条形卷积 深度学习 图像编码 特征提取 长程相关性 4D数据

📋 核心要点

  1. 光场图像数据量巨大,给存储、传输和实时处理带来挑战,现有方法难以兼顾压缩效率和图像质量。
  2. LFIC-DRASC通过解耦表示学习和非对称条形卷积,充分利用光场数据的结构先验,提升压缩性能。
  3. 实验结果表明,LFIC-DRASC在压缩率上优于现有技术,平均降低了20.5%的比特率。

📝 摘要(中文)

光场(LF)图像是一种新兴的4D光线数据,能够真实地呈现3D场景的空间和角度信息。然而,LF图像的大数据量成为实时处理、传输和存储中最具挑战性的问题。本文提出了一种端到端的深度LF图像压缩方法,即LFIC-DRASC,它使用解耦表示和非对称条形卷积来提高编码效率。首先,我们将LF图像压缩问题建模为学习一个解耦的LF表示网络和一个图像编码-解码网络。其次,我们提出了两种新的特征提取器,通过整合不同维度的特征来利用LF数据的结构先验。同时,提出了解耦LF表示网络,以增强LF特征的解耦。第三,我们提出了LFIC-DRASC用于LF图像压缩,其中两个非对称条形卷积(ASC)算子,即水平和垂直方向,被提出以捕获LF特征空间中的长程相关性。这两个ASC算子可以与方形卷积相结合,以进一步解耦LF特征,从而增强模型在表示复杂空间关系方面的能力。实验结果表明,与最先进的方法相比,所提出的LFIC-DRASC平均降低了20.5%的比特率。

🔬 方法详解

问题定义:光场图像压缩旨在减少存储空间和传输带宽需求,同时保持图像质量。现有方法在压缩效率和图像质量之间难以取得平衡,并且未能充分利用光场数据的内在结构信息。

核心思路:论文的核心思路是将光场图像压缩问题分解为两个子问题:学习解耦的光场表示和进行高效的图像编码-解码。通过解耦表示,可以更好地提取和分离光场图像中的不同特征,从而提高压缩效率。非对称条形卷积则用于捕获光场特征空间中的长程相关性,进一步提升压缩性能。

技术框架:LFIC-DRASC包含两个主要网络:解耦LF表示网络和图像编码-解码网络。解耦LF表示网络负责提取和解耦光场图像的特征,图像编码-解码网络则负责对解耦后的特征进行编码和解码,从而实现图像的压缩和重建。整体流程为:输入光场图像 -> 解耦LF表示网络 -> 编码器 -> 压缩码流 -> 解码器 -> 重建光场图像。

关键创新:论文的关键创新在于提出了两种新的特征提取器和非对称条形卷积(ASC)算子。特征提取器利用光场数据的结构先验,整合不同维度的特征。ASC算子则通过水平和垂直方向的条形卷积,捕获光场特征空间中的长程相关性。ASC算子与方形卷积结合,进一步解耦LF特征,增强模型表示复杂空间关系的能力。

关键设计:解耦LF表示网络的设计目标是增强LF特征的解耦。ASC算子包含水平和垂直两个方向,卷积核的形状为1 x k 和 k x 1,其中k是可调节的参数。损失函数的设计可能包含重建损失和正则化项,以保证图像质量和特征的解耦性。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LFIC-DRASC在光场图像压缩方面取得了显著的性能提升。与现有最先进的方法相比,LFIC-DRASC平均降低了20.5%的比特率,这意味着在相同图像质量下,LFIC-DRASC可以实现更高的压缩率,从而节省更多的存储空间和传输带宽。具体的实验数据集和评价指标(如PSNR、SSIM)在论文中应该有更详细的描述(未知)。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、自由视点视频、3D电视等领域。通过高效的光场图像压缩,可以降低存储成本、减少传输带宽需求,从而提升用户体验,推动相关技术的发展和普及。未来,该技术还可能应用于自动驾驶、机器人视觉等领域,为这些应用提供更高效的数据处理能力。

📄 摘要(原文)

Light-Field (LF) image is emerging 4D data of light rays that is capable of realistically presenting spatial and angular information of 3D scene. However, the large data volume of LF images becomes the most challenging issue in real-time processing, transmission, and storage. In this paper, we propose an end-to-end deep LF Image Compression method Using Disentangled Representation and Asymmetrical Strip Convolution (LFIC-DRASC) to improve coding efficiency. Firstly, we formulate the LF image compression problem as learning a disentangled LF representation network and an image encoding-decoding network. Secondly, we propose two novel feature extractors that leverage the structural prior of LF data by integrating features across different dimensions. Meanwhile, disentangled LF representation network is proposed to enhance the LF feature disentangling and decoupling. Thirdly, we propose the LFIC-DRASC for LF image compression, where two Asymmetrical Strip Convolution (ASC) operators, i.e. horizontal and vertical, are proposed to capture long-range correlation in LF feature space. These two ASC operators can be combined with the square convolution to further decouple LF features, which enhances the model ability in representing intricate spatial relationships. Experimental results demonstrate that the proposed LFIC-DRASC achieves an average of 20.5\% bit rate reductions comparing with the state-of-the-art methods.