Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion
作者: Anle Ke, Xu Zhang, Tong Chen, Ming Lu, Chao Zhou, Jiawen Gu, Zhan Ma
分类: cs.CV, eess.IV
发布日期: 2025-05-13
期刊: ICML 2025
💡 一句话要点
ResULIC:融合语义残差编码与压缩感知扩散的超低码率图像压缩
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像压缩 超低码率 语义残差编码 扩散模型 压缩感知 感知质量 多模态大模型
📋 核心要点
- 现有基于多模态大模型的图像压缩方法集成度低,导致重建质量和编码效率难以兼顾。
- ResULIC通过语义残差编码(SRC)和压缩感知扩散模型(CDM)将残差信息融入压缩和生成过程。
- 实验表明,ResULIC在LPIPS和FID指标上显著优于现有基于扩散的方法,实现了更优的压缩性能。
📝 摘要(中文)
现有的基于多模态大模型的图像压缩框架通常依赖于语义检索、隐空间压缩和生成模型的碎片化集成,导致在重建保真度和编码效率方面表现欠佳。为了解决这些挑战,我们提出了一种残差引导的超低码率图像压缩方法ResULIC,它将残差信号融入到语义检索和基于扩散的生成过程中。具体来说,我们引入了语义残差编码(SRC)来捕获原始图像与其压缩后的隐空间表示之间的语义差异,并应用感知保真度优化器以获得卓越的重建质量。此外,我们提出了压缩感知扩散模型(CDM),该模型在比特率和扩散时间步长之间建立了最佳对齐,从而提高了压缩-重建的协同作用。大量实验表明ResULIC的有效性,与最先进的基于扩散的方法相比,在LPIPS和FID方面分别实现了-80.7%和-66.3%的BD-rate节省,在客观和主观性能上均表现出色。项目主页:https://njuvision.github.io/ResULIC/。
🔬 方法详解
问题定义:现有的基于多模态大模型的图像压缩方法通常将语义检索、隐空间压缩和生成模型独立处理,缺乏有效的协同优化。这种碎片化的集成方式导致压缩效率不高,并且难以在极低的码率下保持图像的重建质量,尤其是在感知质量方面存在明显不足。因此,如何在超低码率下实现高质量的图像压缩是一个重要的挑战。
核心思路:ResULIC的核心思路是将残差信息融入到图像压缩的各个阶段,包括语义检索和扩散生成。通过引入语义残差编码(SRC),模型能够捕获原始图像和压缩后的隐空间表示之间的语义差异,从而更好地保留图像的细节信息。此外,通过设计压缩感知扩散模型(CDM),模型能够根据不同的码率自适应地调整扩散过程,从而实现压缩效率和重建质量的平衡。
技术框架:ResULIC的整体框架主要包含以下几个模块:1) 语义残差编码器(SRC):用于提取原始图像和压缩后的隐空间表示之间的残差信息。2) 压缩感知扩散模型(CDM):用于根据码率自适应地生成高质量的图像。3) 感知保真度优化器:用于进一步提升重建图像的感知质量。整个流程首先通过编码器将图像压缩到隐空间,然后利用SRC提取残差信息,接着CDM根据残差信息和码率生成重建图像,最后通过感知保真度优化器进行微调。
关键创新:ResULIC的关键创新在于以下两点:1) 语义残差编码(SRC):通过显式地编码原始图像和压缩表示之间的语义差异,能够更有效地保留图像的细节信息,从而提升重建质量。2) 压缩感知扩散模型(CDM):通过建立比特率和扩散时间步长之间的最佳对齐,能够根据不同的码率自适应地调整扩散过程,从而实现压缩效率和重建质量的平衡。与现有方法相比,ResULIC能够更好地利用残差信息,并且能够根据码率自适应地调整生成过程。
关键设计:在SRC中,使用了感知损失函数来优化残差编码器,以提升重建图像的感知质量。在CDM中,使用了自适应的扩散时间步长调度策略,根据码率动态调整扩散过程。此外,还使用了对抗训练来提升生成图像的真实感。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
ResULIC在超低码率图像压缩方面取得了显著的性能提升。实验结果表明,与最先进的基于扩散的方法相比,ResULIC在LPIPS指标上实现了-80.7%的BD-rate节省,在FID指标上实现了-66.3%的BD-rate节省。这些结果表明,ResULIC在客观和主观性能上均优于现有方法,能够实现更高质量的图像压缩。
🎯 应用场景
ResULIC在带宽受限的场景下具有广泛的应用前景,例如移动互联网、视频会议、远程医疗等。该方法能够以极低的码率传输高质量的图像,从而节省带宽资源,提升用户体验。此外,ResULIC还可以应用于图像存档、图像检索等领域,实现高效的图像存储和检索。
📄 摘要(原文)
Existing multimodal large model-based image compression frameworks often rely on a fragmented integration of semantic retrieval, latent compression, and generative models, resulting in suboptimal performance in both reconstruction fidelity and coding efficiency. To address these challenges, we propose a residual-guided ultra lowrate image compression named ResULIC, which incorporates residual signals into both semantic retrieval and the diffusion-based generation process. Specifically, we introduce Semantic Residual Coding (SRC) to capture the semantic disparity between the original image and its compressed latent representation. A perceptual fidelity optimizer is further applied for superior reconstruction quality. Additionally, we present the Compression-aware Diffusion Model (CDM), which establishes an optimal alignment between bitrates and diffusion time steps, improving compression-reconstruction synergy. Extensive experiments demonstrate the effectiveness of ResULIC, achieving superior objective and subjective performance compared to state-of-the-art diffusion-based methods with - 80.7%, -66.3% BD-rate saving in terms of LPIPS and FID. Project page is available at https: //njuvision.github.io/ResULIC/.