Adaptive Transform Coding for Semantic Compression

📄 arXiv: 2604.26492v1 📥 PDF

作者: Andriy Enttsel, Vincent Corlay

分类: eess.IV, cs.CV, cs.IT, eess.SP

发布日期: 2026-04-29

备注: 7 pages, 4 figures


💡 一句话要点

提出自适应变换编码方法,用于语义压缩,提升机器视觉任务性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义压缩 自适应变换编码 高斯混合模型 率失真优化 视觉特征压缩

📋 核心要点

  1. 现有视觉数据压缩方法侧重于人眼感知的图像重建,忽略了机器视觉任务对语义信息的需求。
  2. 该论文提出一种自适应变换编码方法,利用高斯混合模型的条件率失真函数,对语义特征进行高效压缩。
  3. 实验结果表明,该方法在视觉骨干网络和基础模型上,性能优于或与现有神经压缩方法相当,并保持了灵活性和可解释性。

📝 摘要(中文)

视觉数据压缩正从以人为中心的重建转向面向机器的表征编码。在这种背景下,图像通常被映射到紧凑的语义嵌入,然后对其进行压缩和传输以供下游推理。我们提出了一种自适应变换编码方法,用于语义特征压缩,其动机是高斯混合模型的条件率失真函数。该方案使用依赖于模式的变换和量化器,这些变换和量化器根据推断的源分量进行选择,从而能够更有效地编码异构特征分布。对来自广泛使用的视觉骨干网络和基础模型的特征的评估表明,所提出的方法优于或与最先进的神经压缩方法相比具有竞争力,同时保持了灵活性和可解释性。

🔬 方法详解

问题定义:论文旨在解决语义特征压缩问题,即如何高效地压缩图像的语义嵌入,以便在下游机器视觉任务中获得良好的性能。现有方法,特别是为人类视觉设计的压缩方法,可能无法很好地保留对机器视觉至关重要的语义信息,或者缺乏灵活性和可解释性。

核心思路:论文的核心思路是利用自适应变换编码,根据语义特征的分布特性,选择合适的变换和量化器。具体来说,假设语义特征服从高斯混合模型,不同的高斯分量对应不同的语义模式。通过估计每个特征向量属于哪个高斯分量,就可以选择针对该分量优化的变换和量化器,从而实现更高效的压缩。

技术框架:整体框架包括以下几个主要步骤:1) 特征提取:使用预训练的视觉骨干网络或基础模型提取图像的语义特征。2) 模式推断:使用高斯混合模型对特征向量进行聚类,推断每个特征向量属于哪个高斯分量。3) 自适应变换:根据推断的模式,选择相应的变换矩阵对特征向量进行变换。4) 量化:使用针对该模式优化的量化器对变换后的特征进行量化。5) 编码:使用熵编码器对量化后的特征进行编码。6) 解码:解码过程是编码过程的逆过程,包括熵解码、反量化和反变换。

关键创新:该方法最重要的创新点在于其自适应性,即根据特征向量所属的语义模式,动态地选择变换和量化器。这与传统的变换编码方法不同,后者通常使用固定的变换和量化器,无法很好地适应异构的特征分布。此外,该方法基于高斯混合模型,具有一定的可解释性,可以分析不同语义模式的特征分布。

关键设计:关键设计包括:1) 高斯混合模型的参数估计方法,例如使用期望最大化(EM)算法。2) 变换矩阵的设计,例如使用主成分分析(PCA)或离散余弦变换(DCT)。3) 量化器的设计,例如使用标量量化或矢量量化。4) 损失函数的设计,用于优化变换矩阵和量化器的参数,例如使用率失真优化准则。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个视觉数据集和不同的视觉骨干网络上,都取得了良好的压缩性能。例如,在ImageNet数据集上,使用ResNet-50提取的特征,该方法在保持相同下游任务性能的前提下,可以将特征大小压缩到现有神经压缩方法的水平,同时具有更好的灵活性和可解释性。

🎯 应用场景

该研究成果可应用于各种需要高效语义特征压缩的场景,例如云端视觉服务、移动设备上的图像处理、以及带宽受限环境下的图像传输。通过降低语义特征的存储和传输成本,可以促进人工智能在资源受限设备上的部署,并加速视觉智能的普及。

📄 摘要(原文)

Visual data compression is shifting from human-centered reconstruction to machine-oriented representation coding. In this setting, an image is often mapped to a compact semantic embedding, which is then compressed and transmitted for downstream inference. We propose an adaptive transform-coding method for semantic-feature compression motivated by the conditional rate-distortion function of a Gaussian mixture model. The scheme uses mode-dependent transforms and quantizers selected according to the inferred source component, enabling more efficient coding of heterogeneous feature distributions. Evaluations on features from widely used vision backbones and foundation models show that the proposed method outperforms or is competitive with state-of-the-art neural compression methods while preserving flexibility and interpretability.