Distributed Image Compression with Multimodal Side Information at Extremely Low Bitrates
作者: Guojun Xu, Mingyang Zhang, Jianwen Xiang, Cheng Tan, Yanchao Yang, Junwei Zhou
分类: cs.CV
发布日期: 2026-05-21
备注: Accepted by CVPR2026
💡 一句话要点
提出MDIC:一种利用多模态边信息进行极低码率分布式图像压缩的框架
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分布式图像压缩 多模态学习 边信息 极低码率 扩散模型 图像重建 文本到图像 特征掩码
📋 核心要点
- 现有分布式图像压缩方法在极低码率下,难以充分利用边信息的全局上下文和对象级细节,导致重建质量下降。
- MDIC框架利用文本和视觉多模态边信息,通过文本到图像扩散模型和特征掩码生成器,提升重建图像的感知质量。
- 在KITTI Stereo和Cityscapes数据集上的实验表明,MDIC在极低码率下实现了优于现有方法的感知质量。
📝 摘要(中文)
分布式图像压缩(DIC)对于多视角传输至关重要,尤其是在极低码率(<0.1 bpp)下。其核心挑战是如何有效利用边信息,在严格的码率预算下实现高质量的重建。然而,现有的DIC方法难以利用边信息的全局上下文和对象级细节,导致重建图像出现局部模糊和细节丢失。为了解决这些限制,我们提出了一种多模态DIC框架(MDIC),首次将多模态边信息融入DIC范式,有效地保留了细粒度的局部细节,并增强了重建图像的全局感知质量。具体来说,我们引入了一个基于文本到图像扩散的解码器,该解码器以从相关图像中提取的文本边信息为条件,以捕获共享的全局语义。此外,我们设计了一个特征掩码生成器,通过多模态细粒度对齐任务进行监督,以加强对视觉边信息的利用。生成的掩码有两个目的:首先,它引导从无损传输的边信息中提取细粒度细节,以保持重建细节的语义一致性;其次,它调节从量化的VQ-VAE嵌入中提取的聚类特征表示,补偿主图像在极端压缩下丢失的类别信息。在广泛使用的KITTI Stereo和Cityscapes数据集上的大量实验表明,MDIC在极低码率下实现了最先进的感知质量。
🔬 方法详解
问题定义:论文旨在解决极低码率下分布式图像压缩中,现有方法无法有效利用边信息,导致重建图像质量差的问题。现有方法的痛点在于无法充分利用边信息的全局上下文和对象级细节,造成局部模糊和细节丢失。
核心思路:论文的核心思路是利用多模态边信息,包括文本和视觉信息,来指导图像重建。通过文本信息捕获全局语义,通过视觉信息保留细粒度细节,从而提升重建图像的感知质量。这样设计的目的是为了弥补单一模态边信息在表达能力上的不足,充分利用不同模态信息的互补性。
技术框架:MDIC框架包含编码器和解码器两部分。编码器负责压缩主图像,并提取文本和视觉边信息。解码器是基于文本到图像扩散模型的,以文本边信息为条件生成图像,并利用特征掩码生成器从视觉边信息中提取细粒度细节。整个流程包括:1) 主图像压缩;2) 文本边信息提取;3) 视觉边信息提取;4) 基于扩散模型的图像重建;5) 基于特征掩码的细节增强。
关键创新:论文的关键创新在于首次将多模态边信息引入分布式图像压缩领域,并设计了相应的文本到图像扩散解码器和特征掩码生成器。与现有方法相比,MDIC能够更有效地利用边信息,从而在极低码率下实现更高的重建质量。另一个创新点是使用特征掩码来引导细节提取,这有助于保持重建细节的语义一致性。
关键设计:文本到图像扩散模型采用标准的扩散模型结构,以文本边信息作为条件输入。特征掩码生成器采用卷积神经网络结构,通过多模态细粒度对齐任务进行监督训练。损失函数包括重建损失、对抗损失和多模态对齐损失。VQ-VAE的码本大小和嵌入维度需要根据具体数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MDIC在KITTI Stereo和Cityscapes数据集上,在极低码率下(例如,低于0.1 bpp)实现了state-of-the-art的感知质量。与现有方法相比,MDIC在PSNR和SSIM等指标上取得了显著提升,并且在视觉效果上能够更好地保留图像细节,减少模糊。
🎯 应用场景
该研究成果可应用于多视角视频传输、远程监控、自动驾驶等领域。在这些场景中,需要在极低的带宽条件下传输图像或视频,同时保证一定的图像质量。MDIC框架能够有效地利用边信息,在极低码率下实现高质量的图像重建,从而满足这些应用的需求。未来,该技术还可以扩展到其他多模态图像处理任务中。
📄 摘要(原文)
Distributed Image Compression (DIC) is crucial for multi-view transmission, especially when operating at extremely low bitrates (< 0.1 bpp). Its core challenge is effectively utilizing side information to achieve high-quality reconstruction under strict bitrate budgets. However, existing DIC approaches struggle to exploit global context and object-level details from side information, leading to local blurring and the loss of fine details in the reconstruction. To address these limitations, we propose a Multimodal DIC framework (MDIC), which, for the first time, leverages side information in a multimodal manner into the DIC paradigm, effectively preserving fine-grained local details and enhancing global perceptual quality in reconstructed images. Specifically, we introduce a text-to-image diffusion-based decoder conditioned on textual side information extracted from correlated images to capture shared global semantics. Moreover, we design a feature-mask generator, supervised by a multimodal fine-grained alignment task, to strengthen the exploitation of visual side information. The generated mask serves two purposes: first, it guides the extraction of fine-grained details from losslessly transmitted side information to preserve the semantic consistency of reconstructed details; second, it regulates the extraction of clustered feature representations from the quantized VQ-VAE embeddings, compensating for category information lost under the extreme compression of the primary image. Extensive experiments on the widely used KITTI Stereo and Cityscapes datasets demonstrate that MDIC achieves state-of-the-art perceptual quality at extremely low bitrates.