Dual-Representation Image Compression at Ultra-Low Bitrates via Explicit Semantics and Implicit Textures

📄 arXiv: 2602.05213v1 📥 PDF

作者: Chuqin Zhou, Xiaoyue Ling, Yunuo Chen, Jincheng Dai, Guo Lu, Wenjun Zhang

分类: cs.CV

发布日期: 2026-02-05


💡 一句话要点

提出双重表征图像压缩框架,融合显式语义和隐式纹理,提升超低码率下压缩性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像压缩 超低码率 显式语义 隐式纹理 扩散模型 神经编解码器 生成模型

📋 核心要点

  1. 现有神经编解码器在低码率下表现良好,但在超低码率下性能显著下降,语义保真度和感知真实感之间存在权衡。
  2. 提出一种统一框架,融合显式语义和隐式纹理,利用扩散模型和反向通道编码,在训练过程中无缝集成两种表征。
  3. 实验表明,该框架在码率-感知性能上优于现有方法,并在多个数据集上取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种统一的框架,通过在训练过程中无缝集成显式和隐式表征,弥合了语义忠实度和感知真实感之间的差距,从而提升超低码率下的图像压缩性能。该框架以显式的高级语义信息为条件,驱动扩散模型生成图像,并采用反向通道编码隐式地传递精细纹理细节。此外,引入了一个插件式编码器,通过调节隐式信息来灵活控制失真-感知的权衡。实验结果表明,该框架在码率-感知性能方面达到了最先进水平,在Kodak、DIV2K和CLIC2020数据集上,DISTS BD-Rate指标分别超越DiffC 29.92%、19.33%和20.89%。

🔬 方法详解

问题定义:论文旨在解决超低码率图像压缩问题。现有方法,特别是基于生成模型的压缩方法,在语义保真度和感知真实感之间存在固有的矛盾。基于显式表征的方法虽然能保留内容结构,但缺乏精细纹理;而基于隐式表征的方法虽然能合成视觉上逼真的细节,但容易产生语义漂移。

核心思路:论文的核心思路是将显式语义信息和隐式纹理信息进行有效融合,从而在超低码率下实现更好的压缩性能。具体来说,利用显式语义信息引导图像生成,同时利用隐式信息补充纹理细节,从而兼顾语义保真度和感知质量。

技术框架:整体框架包含一个插件式编码器和一个条件扩散模型。编码器负责提取显式语义特征和隐式纹理信息。扩散模型以显式语义特征为条件,生成图像的基本结构,并通过反向通道编码的隐式信息来增强纹理细节。编码器还允许灵活控制失真-感知的权衡。

关键创新:该方法的核心创新在于双重表征的融合方式。不同于以往方法中显式和隐式表征的简单拼接或串联,该方法通过条件扩散模型和反向通道编码,实现了两种表征的深度融合,从而避免了语义漂移和纹理缺失的问题。插件式编码器也提供了灵活的失真-感知权衡控制。

关键设计:论文的关键设计包括:1) 使用预训练模型提取显式语义特征;2) 使用反向通道编码隐式纹理信息;3) 设计插件式编码器,用于控制隐式信息的强度,从而调节失真-感知的权衡;4) 使用扩散模型作为生成器,以保证生成图像的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Kodak、DIV2K和CLIC2020数据集上,DISTS BD-Rate指标分别超越DiffC 29.92%、19.33%和20.89%,显著优于现有方法,证明了该框架在超低码率图像压缩方面的有效性。这些数据表明,该方法在感知质量方面取得了显著提升。

🎯 应用场景

该研究成果可应用于对存储空间和传输带宽有严格限制的场景,例如移动设备上的图像压缩、低带宽网络环境下的图像传输、以及大规模图像数据库的存储等。通过在超低码率下实现高质量的图像压缩,可以有效降低存储成本、提高传输效率,并改善用户体验。未来,该技术有望进一步扩展到视频压缩领域。

📄 摘要(原文)

While recent neural codecs achieve strong performance at low bitrates when optimized for perceptual quality, their effectiveness deteriorates significantly under ultra-low bitrate conditions. To mitigate this, generative compression methods leveraging semantic priors from pretrained models have emerged as a promising paradigm. However, existing approaches are fundamentally constrained by a tradeoff between semantic faithfulness and perceptual realism. Methods based on explicit representations preserve content structure but often lack fine-grained textures, whereas implicit methods can synthesize visually plausible details at the cost of semantic drift. In this work, we propose a unified framework that bridges this gap by coherently integrating explicit and implicit representations in a training-free manner. Specifically, We condition a diffusion model on explicit high-level semantics while employing reverse-channel coding to implicitly convey fine-grained details. Moreover, we introduce a plug-in encoder that enables flexible control of the distortion-perception tradeoff by modulating the implicit information. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art rate-perception performance, outperforming existing methods and surpassing DiffC by 29.92%, 19.33%, and 20.89% in DISTS BD-Rate on the Kodak, DIV2K, and CLIC2020 datasets, respectively.