Conditional Latent Coding with Learnable Synthesized Reference for Deep Image Compression
作者: Siqi Wu, Yinda Chen, Dong Liu, Zhihai He
分类: cs.CV, cs.AI
发布日期: 2025-02-14
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于可学习合成参考的条件潜在编码,用于深度图像压缩。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 深度图像压缩 条件潜在编码 动态参考 特征匹配 图像相关性
📋 核心要点
- 现有图像压缩方法难以充分利用图像的上下文信息,导致压缩效率受限。
- 提出一种条件潜在编码方法,通过合成动态参考来增强模型捕获图像相关性的能力。
- 实验表明,该方法在极小开销下,显著提升了图像压缩性能,最高可达1.2dB。
📝 摘要(中文)
本文研究了如何从外部字典中合成动态参考,以在潜在域中对输入图像执行条件编码,以及如何以端到端的方式学习条件潜在合成和编码模块。该方法首先构建一个通用图像特征字典,使用多阶段方法,包括改进的空间金字塔池化、降维和多尺度特征聚类。对于每个输入图像,学习通过从字典中选择和合成相关特征来合成条件潜在变量,从而显著增强模型捕获和探索图像源相关性的能力。这种条件潜在合成涉及一种基于相关性的特征匹配和对齐策略,包括条件潜在匹配(CLM)模块和条件潜在合成(CLS)模块。然后,合成的潜在变量用于指导编码过程,通过利用输入图像和参考字典之间的相关性来实现更有效的压缩。理论分析表明,所提出的条件潜在编码(CLC)方法对外部字典样本和所选条件潜在变量的扰动具有鲁棒性,其误差界限随字典大小呈对数缩放,即使对于大型和多样化的字典也能确保稳定性。基准数据集上的实验结果表明,该方法在极小的额外开销(约0.5% bits per pixel)下,编码性能提高了很大幅度(高达1.2 dB)。代码已公开。
🔬 方法详解
问题定义:深度图像压缩旨在高效地表示图像数据,减少存储空间和传输带宽。现有方法通常直接编码图像的潜在表示,忽略了图像间的相关性。因此,如何有效地利用图像的上下文信息,提高压缩效率,是一个重要的挑战。
核心思路:本文的核心思路是利用外部字典构建动态参考,通过条件潜在编码的方式,将输入图像与参考图像之间的相关性引入到压缩过程中。通过学习合成与输入图像相关的条件潜在变量,可以更有效地表示图像信息,从而提高压缩效率。
技术框架:该方法主要包含以下几个阶段:1) 构建通用图像特征字典:使用多阶段方法,包括改进的空间金字塔池化、降维和多尺度特征聚类,构建一个包含丰富图像特征的字典。2) 条件潜在合成:对于每个输入图像,通过条件潜在匹配(CLM)模块和条件潜在合成(CLS)模块,从字典中选择和合成相关的特征,生成条件潜在变量。3) 条件潜在编码:利用合成的条件潜在变量指导编码过程,实现更高效的图像压缩。
关键创新:该方法最重要的创新点在于引入了条件潜在编码的概念,通过学习合成动态参考,将图像间的相关性引入到压缩过程中。与传统的直接编码潜在表示的方法相比,该方法能够更有效地利用图像的上下文信息,提高压缩效率。此外,该方法还提出了一种基于相关性的特征匹配和对齐策略,用于条件潜在变量的合成。
关键设计:在构建通用图像特征字典时,采用了改进的空间金字塔池化方法,以提取多尺度的图像特征。在条件潜在合成过程中,CLM模块用于计算输入图像和字典特征之间的相关性,CLS模块用于根据相关性权重合成条件潜在变量。损失函数的设计旨在优化条件潜在变量的合成,使其能够更好地表示输入图像的信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在基准数据集上取得了显著的性能提升,最高可达1.2 dB。与现有方法相比,该方法在极小的额外开销(约0.5% bits per pixel)下,实现了更高的压缩效率。代码已公开,方便研究人员进行复现和进一步研究。
🎯 应用场景
该研究成果可应用于各种图像压缩场景,例如视频会议、图像存储、流媒体服务等。通过提高图像压缩效率,可以减少存储空间和传输带宽,从而降低成本,提升用户体验。未来,该方法还可以扩展到视频压缩领域,进一步提高视频编码效率。
📄 摘要(原文)
In this paper, we study how to synthesize a dynamic reference from an external dictionary to perform conditional coding of the input image in the latent domain and how to learn the conditional latent synthesis and coding modules in an end-to-end manner. Our approach begins by constructing a universal image feature dictionary using a multi-stage approach involving modified spatial pyramid pooling, dimension reduction, and multi-scale feature clustering. For each input image, we learn to synthesize a conditioning latent by selecting and synthesizing relevant features from the dictionary, which significantly enhances the model's capability in capturing and exploring image source correlation. This conditional latent synthesis involves a correlation-based feature matching and alignment strategy, comprising a Conditional Latent Matching (CLM) module and a Conditional Latent Synthesis (CLS) module. The synthesized latent is then used to guide the encoding process, allowing for more efficient compression by exploiting the correlation between the input image and the reference dictionary. According to our theoretical analysis, the proposed conditional latent coding (CLC) method is robust to perturbations in the external dictionary samples and the selected conditioning latent, with an error bound that scales logarithmically with the dictionary size, ensuring stability even with large and diverse dictionaries. Experimental results on benchmark datasets show that our new method improves the coding performance by a large margin (up to 1.2 dB) with a very small overhead of approximately 0.5\% bits per pixel. Our code is publicly available at https://github.com/ydchen0806/CLC.