SMIC: Semantic Multi-Item Compression based on CLIP dictionary
作者: Tom Bachard, Thomas Maugey
分类: eess.IV, cs.CV, cs.MM
发布日期: 2024-12-06
备注: 12 pages, 14 figures, 3 tables, journal paper, preprint
💡 一句话要点
提出基于CLIP字典的语义多项目压缩方法,提升图像集合压缩率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语义压缩 CLIP模型 图像集合压缩 字典学习 多项目编码
📋 核心要点
- 传统图像压缩侧重于像素级失真,忽略了语义信息的重要性,语义压缩旨在解决这一问题。
- 该论文利用CLIP的语义空间特性,提出一种基于字典的多项目压缩方法,有效利用图像集合间的语义冗余。
- 实验结果表明,该方法在保持语义保真度的前提下,显著提高了图像集合的压缩率,优于现有生成式编解码器。
📝 摘要(中文)
语义压缩是一种使用语义保真度指标(而非均方误差MSE)的压缩方案,正变得越来越流行。最近的语义压缩方案大多依赖于基础模型CLIP。本文将这种方案扩展到图像集合压缩,在编码阶段考虑项目间的冗余。为此,我们首先证明CLIP的潜在空间允许简单的语义加法和减法。基于此,我们定义了一种基于字典的多项目编解码器,在不牺牲语义保真度的情况下,其压缩率优于最先进的生成编解码器,约为每张图像$10^{-5}$ BPP。我们还表明,学习到的字典本质上是语义的,并且可以作为图像语义内容的语义投影器。
🔬 方法详解
问题定义:现有图像压缩方法,特别是针对图像集合的压缩,通常忽略了图像之间的语义关联性,导致压缩效率受限。传统的基于MSE的失真度量无法很好地反映图像的语义信息。因此,如何有效地利用图像集合的语义冗余,并在保持语义保真度的前提下提高压缩率,是一个亟待解决的问题。
核心思路:该论文的核心思路是利用CLIP模型强大的语义表征能力,将图像映射到CLIP的潜在空间中,并利用该空间中语义加减的特性,构建一个基于字典的多项目编解码器。通过学习一个语义字典,将图像表示为字典中元素的线性组合,从而实现高效的语义压缩。
技术框架:该方法主要包含以下几个阶段:1) 使用CLIP模型将图像集合中的每张图像编码到CLIP的潜在空间中。2) 基于编码后的向量,学习一个语义字典。3) 对于每张图像,找到字典中最相关的元素,并计算其线性组合系数。4) 将字典索引和线性组合系数进行编码,实现压缩。5) 解码时,根据字典索引和线性组合系数,重构图像在CLIP潜在空间的表示,并通过CLIP解码器生成图像。
关键创新:该方法最重要的创新点在于利用CLIP的潜在空间进行语义加减操作,从而构建了一个基于字典的多项目编解码器。与传统的基于像素的压缩方法不同,该方法直接在语义空间中进行压缩,能够更好地保持图像的语义信息。此外,该方法还能够学习到一个具有语义意义的字典,该字典可以作为图像语义内容的语义投影器。
关键设计:该方法的关键设计包括:1) 字典的学习方法,例如使用K-means或其他聚类算法。2) 线性组合系数的计算方法,例如使用最小二乘法。3) 字典大小的选择,需要在压缩率和重构质量之间进行权衡。4) 损失函数的设计,需要考虑语义保真度和压缩率之间的平衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在图像集合压缩任务中,实现了约$10^{-5}$ BPP(每像素比特数)的压缩率,优于现有的生成式编解码器。同时,该方法在保持语义保真度方面也表现出色,能够有效地保留图像的语义信息。此外,学习到的字典具有语义意义,可以作为图像语义内容的语义投影器。
🎯 应用场景
该研究成果可应用于大规模图像数据库的存储和传输,例如云存储、图像搜索引擎、社交媒体平台等。通过高效的语义压缩,可以显著降低存储成本和带宽需求,同时保证图像的语义质量。此外,该方法还可以应用于图像编辑和生成领域,例如图像风格迁移、图像修复等。
📄 摘要(原文)
Semantic compression, a compression scheme where the distortion metric, typically MSE, is replaced with semantic fidelity metrics, tends to become more and more popular. Most recent semantic compression schemes rely on the foundation model CLIP. In this work, we extend such a scheme to image collection compression, where inter-item redundancy is taken into account during the coding phase. For that purpose, we first show that CLIP's latent space allows for easy semantic additions and subtractions. From this property, we define a dictionary-based multi-item codec that outperforms state-of-the-art generative codec in terms of compression rate, around $10^{-5}$ BPP per image, while not sacrificing semantic fidelity. We also show that the learned dictionary is of a semantic nature and works as a semantic projector for the semantic content of images.