Dual-Representation Image Compression at Ultra-Low Bitrates via Explicit Semantics and Implicit Textures

作者: Chuqin Zhou, Xiaoyue Ling, Yunuo Chen, Jincheng Dai, Guo Lu, Wenjun Zhang

分类: cs.CV

发布日期: 2026-02-05

💡 一句话要点

提出双重表征图像压缩框架，融合显式语义和隐式纹理，提升超低码率下压缩性能。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 图像压缩 超低码率 显式语义 隐式纹理 扩散模型 神经编解码器 生成模型

📋 核心要点

现有神经编解码器在低码率下表现良好，但在超低码率下性能显著下降，语义保真度和感知真实感之间存在权衡。
提出一种统一框架，融合显式语义和隐式纹理，利用扩散模型和反向通道编码，在训练过程中无缝集成两种表征。
实验表明，该框架在码率-感知性能上优于现有方法，并在多个数据集上取得了显著的性能提升。

📝 摘要（中文）

本文提出了一种统一的框架，通过在训练过程中无缝集成显式和隐式表征，弥合了语义忠实度和感知真实感之间的差距，从而提升超低码率下的图像压缩性能。该框架以显式的高级语义信息为条件，驱动扩散模型生成图像，并采用反向通道编码隐式地传递精细纹理细节。此外，引入了一个插件式编码器，通过调节隐式信息来灵活控制失真-感知的权衡。实验结果表明，该框架在码率-感知性能方面达到了最先进水平，在Kodak、DIV2K和CLIC2020数据集上，DISTS BD-Rate指标分别超越DiffC 29.92%、19.33%和20.89%。

🔬 方法详解

问题定义：论文旨在解决超低码率图像压缩问题。现有方法，特别是基于生成模型的压缩方法，在语义保真度和感知真实感之间存在固有的矛盾。基于显式表征的方法虽然能保留内容结构，但缺乏精细纹理；而基于隐式表征的方法虽然能合成视觉上逼真的细节，但容易产生语义漂移。

核心思路：论文的核心思路是将显式语义信息和隐式纹理信息进行有效融合，从而在超低码率下实现更好的压缩性能。具体来说，利用显式语义信息引导图像生成，同时利用隐式信息补充纹理细节，从而兼顾语义保真度和感知质量。

技术框架：整体框架包含一个插件式编码器和一个条件扩散模型。编码器负责提取显式语义特征和隐式纹理信息。扩散模型以显式语义特征为条件，生成图像的基本结构，并通过反向通道编码的隐式信息来增强纹理细节。编码器还允许灵活控制失真-感知的权衡。

关键创新：该方法的核心创新在于双重表征的融合方式。不同于以往方法中显式和隐式表征的简单拼接或串联，该方法通过条件扩散模型和反向通道编码，实现了两种表征的深度融合，从而避免了语义漂移和纹理缺失的问题。插件式编码器也提供了灵活的失真-感知权衡控制。

关键设计：论文的关键设计包括：1) 使用预训练模型提取显式语义特征；2) 使用反向通道编码隐式纹理信息；3) 设计插件式编码器，用于控制隐式信息的强度，从而调节失真-感知的权衡；4) 使用扩散模型作为生成器，以保证生成图像的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Kodak、DIV2K和CLIC2020数据集上，DISTS BD-Rate指标分别超越DiffC 29.92%、19.33%和20.89%，显著优于现有方法，证明了该框架在超低码率图像压缩方面的有效性。这些数据表明，该方法在感知质量方面取得了显著提升。

🎯 应用场景

该研究成果可应用于对存储空间和传输带宽有严格限制的场景，例如移动设备上的图像压缩、低带宽网络环境下的图像传输、以及大规模图像数据库的存储等。通过在超低码率下实现高质量的图像压缩，可以有效降低存储成本、提高传输效率，并改善用户体验。未来，该技术有望进一步扩展到视频压缩领域。

📄 摘要（原文）

While recent neural codecs achieve strong performance at low bitrates when optimized for perceptual quality, their effectiveness deteriorates significantly under ultra-low bitrate conditions. To mitigate this, generative compression methods leveraging semantic priors from pretrained models have emerged as a promising paradigm. However, existing approaches are fundamentally constrained by a tradeoff between semantic faithfulness and perceptual realism. Methods based on explicit representations preserve content structure but often lack fine-grained textures, whereas implicit methods can synthesize visually plausible details at the cost of semantic drift. In this work, we propose a unified framework that bridges this gap by coherently integrating explicit and implicit representations in a training-free manner. Specifically, We condition a diffusion model on explicit high-level semantics while employing reverse-channel coding to implicitly convey fine-grained details. Moreover, we introduce a plug-in encoder that enables flexible control of the distortion-perception tradeoff by modulating the implicit information. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art rate-perception performance, outperforming existing methods and surpassing DiffC by 29.92%, 19.33%, and 20.89% in DISTS BD-Rate on the Kodak, DIV2K, and CLIC2020 datasets, respectively.

Dual-Representation Image Compression at Ultra-Low Bitrates via Explicit Semantics and Implicit Textures

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理