The Rescue Effect: Spatio-Semantic Early Exit Bypasses Quantization Collapse in CLIP
作者: Kahyeon Nam, Hyesong Choi
分类: cs.CV, cs.AI
发布日期: 2026-05-26
💡 一句话要点
提出LRA-EE,通过层级表征感知的提前退出机制,缓解CLIP模型量化导致的性能崩溃问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CLIP模型 量化 提前退出 表征崩溃 零样本分类
📋 核心要点
- CLIP模型INT8量化会因激活噪声累积导致表征崩溃,严重影响零样本检索性能。
- 提出LRA-EE,通过空间-语义聚合和层自适应置信度阈值,实现提前退出并绕过噪声层。
- 实验表明,LRA-EE在ImageNet-1K上显著提升了INT8 CLIP的零样本分类准确率,并降低了计算量。
📝 摘要(中文)
在资源受限的硬件上部署视觉-语言模型通常需要INT8量化,但在CLIP等联合嵌入架构中,这会引入一种不同于量化CNN分类器的失效模式:跨Transformer块累积的激活噪声会扰乱多模态嵌入的方向,从而削弱零样本检索所依赖的余弦对齐。我们将此现象定义为量化诱导表征崩溃(QIRC),并在INT8 CLIP ViT-B/32上对其进行量化,其中层级噪声信号比从浅层块的低于10%增长到第11层的52%。我们提出了LRA-EE(层级表征感知提前退出),它通过空间-语义聚合(用全局patch-token平均代替不成熟的浅层[CLS])、学习的多特征门(置信度、top-2边距、空间激活方差)以及针对每层信息噪声比校准的层自适应置信度阈值来绕过噪声饱和的深层。在ImageNet-1K零样本分类上,LRA-EE减少了13.4%的FLOPs,并且相比INT8基线提高了+2.44%p的Top-1准确率(58.72% -> 61.16%)。四象限分解隔离了救援效应:9.5%的样本在浅层退出时被正确分类,但在完全深度时因噪声而丢失,而只有7.1%的样本遭受相反的情况。
🔬 方法详解
问题定义:论文旨在解决CLIP模型在INT8量化后出现的量化诱导表征崩溃(QIRC)问题。现有方法直接对CLIP模型进行量化,导致Transformer块中激活噪声累积,扰乱多模态嵌入的方向,严重降低零样本检索的准确率。这种现象在深层网络中尤为明显,使得模型无法有效利用深层特征。
核心思路:论文的核心思路是设计一种层级表征感知的提前退出机制,即LRA-EE。该机制允许模型在较浅层提前退出,从而避免噪声饱和的深层网络。LRA-EE通过空间-语义聚合来改善浅层特征的质量,并使用学习的多特征门和层自适应置信度阈值来决定是否提前退出。这样可以在保证准确率的同时,降低计算复杂度。
技术框架:LRA-EE主要包含以下几个模块: 1. 空间-语义聚合:使用全局patch-token平均来代替浅层[CLS] token,以获得更具代表性的浅层特征。 2. 多特征门:使用学习的门控机制,结合置信度、top-2边距和空间激活方差等多个特征来评估当前层的表征质量。 3. 层自适应置信度阈值:根据每层的信息噪声比(INR)动态调整置信度阈值,以适应不同层的噪声水平。 4. 提前退出策略:如果多特征门输出的置信度超过当前层的阈值,则提前退出,否则继续执行后续层。
关键创新:LRA-EE的关键创新在于其层级表征感知的提前退出机制。与传统的提前退出方法不同,LRA-EE不仅考虑了模型的置信度,还结合了空间信息和层级信息,从而更准确地评估当前层的表征质量。此外,层自适应置信度阈值的设计使得模型能够更好地适应不同层的噪声水平。
关键设计: * 空间-语义聚合:使用平均池化操作对所有patch token的特征进行平均,得到全局特征表示。 * 多特征门:使用一个小型神经网络来学习多特征的权重,并输出一个置信度分数。 * 层自适应置信度阈值:根据每层的信息噪声比(INR)计算阈值,INR越高,阈值越低,允许更多的样本提前退出。 * 损失函数:使用交叉熵损失函数训练多特征门,并使用KL散度损失函数来鼓励提前退出的样本与完整模型的输出保持一致。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LRA-EE在ImageNet-1K零样本分类任务上,相比INT8基线,减少了13.4%的FLOPs,并且提高了2.44%的Top-1准确率(从58.72%提升到61.16%)。四象限分解分析表明,LRA-EE能够有效“拯救”那些在浅层被正确分类但在深层因噪声而丢失的样本,证明了其有效性。
🎯 应用场景
该研究成果可应用于资源受限的设备上部署大规模视觉-语言模型,例如移动设备、嵌入式系统等。通过降低计算量和提高推理速度,可以使这些设备能够运行复杂的AI任务,例如零样本图像分类、图像检索等。此外,该方法还可以推广到其他类型的Transformer模型和量化方法,具有广泛的应用前景。
📄 摘要(原文)
Deploying Vision-Language Models on resource-constrained hardware typically requires INT8 quantization, but in joint-embedding architectures such as CLIP this introduces a failure mode distinct from quantized CNN classifiers: activation noise accumulated across transformer blocks perturbs the direction of the multimodal embedding, eroding the cosine alignment on which zero-shot retrieval depends. We characterize this as Quantization-Induced Representation Collapse (QIRC) and quantify it on INT8 CLIP ViT-B/32, where the layer-wise noise-to-signal ratio grows from below 10% in shallow blocks to 52% at Layer 11. We propose LRA-EE (Layer-wise Representation-Aware Early Exit), which bypasses noise-saturated deep layers via Spatio-Semantic Aggregation (replacing the immature shallow [CLS] with a global patch-token average), a learned multi-feature gate (confidence, top-2 margin, spatial-activation variance), and Layer-adaptive Confidence Thresholding calibrated to each layer's Information-to-Noise Ratio. On ImageNet-1K zero-shot classification, LRA-EE reduces FLOPs by 13.4% and improves Top-1 accuracy by +2.44%p (58.72% -> 61.16%) over the INT8 baseline. A four-quadrant decomposition isolates the Rescue Effect: 9.5% of samples are correctly classified at shallow exits but lost to noise at full depth, against only 7.1% suffering the inverse.