Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion

作者: Anle Ke, Xu Zhang, Tong Chen, Ming Lu, Chao Zhou, Jiawen Gu, Zhan Ma

分类: cs.CV, eess.IV

发布日期: 2025-05-13

期刊: ICML 2025

💡 一句话要点

ResULIC：融合语义残差编码与压缩感知扩散的超低码率图像压缩

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像压缩 超低码率 语义残差编码 扩散模型 压缩感知 感知质量 多模态大模型

📋 核心要点

现有基于多模态大模型的图像压缩方法集成度低，导致重建质量和编码效率难以兼顾。
ResULIC通过语义残差编码（SRC）和压缩感知扩散模型（CDM）将残差信息融入压缩和生成过程。
实验表明，ResULIC在LPIPS和FID指标上显著优于现有基于扩散的方法，实现了更优的压缩性能。

📝 摘要（中文）

现有的基于多模态大模型的图像压缩框架通常依赖于语义检索、隐空间压缩和生成模型的碎片化集成，导致在重建保真度和编码效率方面表现欠佳。为了解决这些挑战，我们提出了一种残差引导的超低码率图像压缩方法ResULIC，它将残差信号融入到语义检索和基于扩散的生成过程中。具体来说，我们引入了语义残差编码（SRC）来捕获原始图像与其压缩后的隐空间表示之间的语义差异，并应用感知保真度优化器以获得卓越的重建质量。此外，我们提出了压缩感知扩散模型（CDM），该模型在比特率和扩散时间步长之间建立了最佳对齐，从而提高了压缩-重建的协同作用。大量实验表明ResULIC的有效性，与最先进的基于扩散的方法相比，在LPIPS和FID方面分别实现了-80.7%和-66.3%的BD-rate节省，在客观和主观性能上均表现出色。项目主页：https://njuvision.github.io/ResULIC/。

🔬 方法详解

问题定义：现有的基于多模态大模型的图像压缩方法通常将语义检索、隐空间压缩和生成模型独立处理，缺乏有效的协同优化。这种碎片化的集成方式导致压缩效率不高，并且难以在极低的码率下保持图像的重建质量，尤其是在感知质量方面存在明显不足。因此，如何在超低码率下实现高质量的图像压缩是一个重要的挑战。

核心思路：ResULIC的核心思路是将残差信息融入到图像压缩的各个阶段，包括语义检索和扩散生成。通过引入语义残差编码（SRC），模型能够捕获原始图像和压缩后的隐空间表示之间的语义差异，从而更好地保留图像的细节信息。此外，通过设计压缩感知扩散模型（CDM），模型能够根据不同的码率自适应地调整扩散过程，从而实现压缩效率和重建质量的平衡。

技术框架：ResULIC的整体框架主要包含以下几个模块：1) 语义残差编码器（SRC）：用于提取原始图像和压缩后的隐空间表示之间的残差信息。2) 压缩感知扩散模型（CDM）：用于根据码率自适应地生成高质量的图像。3) 感知保真度优化器：用于进一步提升重建图像的感知质量。整个流程首先通过编码器将图像压缩到隐空间，然后利用SRC提取残差信息，接着CDM根据残差信息和码率生成重建图像，最后通过感知保真度优化器进行微调。

关键创新：ResULIC的关键创新在于以下两点：1) 语义残差编码（SRC）：通过显式地编码原始图像和压缩表示之间的语义差异，能够更有效地保留图像的细节信息，从而提升重建质量。2) 压缩感知扩散模型（CDM）：通过建立比特率和扩散时间步长之间的最佳对齐，能够根据不同的码率自适应地调整扩散过程，从而实现压缩效率和重建质量的平衡。与现有方法相比，ResULIC能够更好地利用残差信息，并且能够根据码率自适应地调整生成过程。

关键设计：在SRC中，使用了感知损失函数来优化残差编码器，以提升重建图像的感知质量。在CDM中，使用了自适应的扩散时间步长调度策略，根据码率动态调整扩散过程。此外，还使用了对抗训练来提升生成图像的真实感。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

ResULIC在超低码率图像压缩方面取得了显著的性能提升。实验结果表明，与最先进的基于扩散的方法相比，ResULIC在LPIPS指标上实现了-80.7%的BD-rate节省，在FID指标上实现了-66.3%的BD-rate节省。这些结果表明，ResULIC在客观和主观性能上均优于现有方法，能够实现更高质量的图像压缩。

🎯 应用场景

ResULIC在带宽受限的场景下具有广泛的应用前景，例如移动互联网、视频会议、远程医疗等。该方法能够以极低的码率传输高质量的图像，从而节省带宽资源，提升用户体验。此外，ResULIC还可以应用于图像存档、图像检索等领域，实现高效的图像存储和检索。

📄 摘要（原文）

Existing multimodal large model-based image compression frameworks often rely on a fragmented integration of semantic retrieval, latent compression, and generative models, resulting in suboptimal performance in both reconstruction fidelity and coding efficiency. To address these challenges, we propose a residual-guided ultra lowrate image compression named ResULIC, which incorporates residual signals into both semantic retrieval and the diffusion-based generation process. Specifically, we introduce Semantic Residual Coding (SRC) to capture the semantic disparity between the original image and its compressed latent representation. A perceptual fidelity optimizer is further applied for superior reconstruction quality. Additionally, we present the Compression-aware Diffusion Model (CDM), which establishes an optimal alignment between bitrates and diffusion time steps, improving compression-reconstruction synergy. Extensive experiments demonstrate the effectiveness of ResULIC, achieving superior objective and subjective performance compared to state-of-the-art diffusion-based methods with - 80.7%, -66.3% BD-rate saving in terms of LPIPS and FID. Project page is available at https: //njuvision.github.io/ResULIC/.

Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理