Activation Quantization of Vision Encoders Needs Prefixing Registers
作者: Seunghyeon Kim, Jinho Kim, Taesun Yeom, Wonpyo Park, Kyuyeun Kim, Jaeho Lee
分类: cs.LG, cs.CV
发布日期: 2025-10-06 (更新: 2025-11-28)
备注: 19 pages, 8 figures
💡 一句话要点
提出RegCache,通过前缀寄存器实现视觉编码器激活量化的无训练优化
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉编码器 量化 异常值抑制 前缀寄存器 免训练优化
📋 核心要点
- 大规模视觉编码器量化面临激活异常值的挑战,即使是8位量化也难以保证精度。
- RegCache通过引入前缀token来抑制激活异常值,无需额外训练,可作为插件集成。
- RegCache针对视觉编码器特性,提出中间层前缀和token删除策略,提升量化模型精度。
📝 摘要(中文)
基于Transformer的视觉编码器,如CLIP,在多模态智能中扮演着核心角色,驱动着从自主网络代理到机器人控制等应用。由于这些应用通常需要对海量视觉数据进行实时处理,因此降低视觉编码器的推理成本至关重要。量化提供了一种可行的途径,但由于大规模激活(即异常值)的存在,即使在8位精度下仍然具有挑战性。本文提出了一种名为$ extit{RegCache}$的免训练算法,用于缓解大规模预训练视觉编码器中的异常值,并作为一个插件模块应用于其他量化方法之上。RegCache将易于出现异常值但语义上无意义的前缀token引入目标视觉编码器,从而防止其他token出现异常值。值得注意的是,我们观察到视觉编码器中的异常值与语言模型中的异常值表现不同,这促使我们进行了两项技术创新:中间层前缀和token删除。实验表明,我们的方法始终如一地提高了文本监督和自监督视觉编码器中量化模型的准确性。
🔬 方法详解
问题定义:论文旨在解决视觉编码器量化过程中,由于激活值中存在大量异常值(outliers)而导致的量化精度下降问题。现有的量化方法难以有效处理这些异常值,尤其是在大规模预训练的视觉编码器中,这严重限制了量化技术的应用。
核心思路:论文的核心思路是引入一组“前缀寄存器”(prefixing registers),即一组特殊的token,这些token被设计成容易产生异常值,从而将其他token从产生异常值的风险中解放出来。通过这种方式,可以有效地抑制整个激活值分布中的异常值,从而提高量化精度。
技术框架:RegCache作为一个插件模块,可以添加到现有的视觉编码器中。其主要流程包括:1) 在视觉编码器的特定层(通常是中间层)插入一组前缀token;2) 在前向传播过程中,这些前缀token会影响激活值的分布;3) 可选地,删除部分token以进一步优化性能。整个过程无需训练,可以直接应用于预训练的视觉编码器。
关键创新:该方法最重要的创新点在于观察到视觉编码器中的异常值行为与语言模型不同,并针对性地提出了中间层前缀和token删除策略。与在输入层添加前缀token不同,中间层前缀可以更有效地控制激活值的分布。此外,token删除可以移除冗余或有害的token,进一步提高性能。
关键设计:关键设计包括:1) 前缀token的数量和初始化方式;2) 前缀token插入的层数和位置;3) token删除的策略,例如基于激活值的幅度进行删除。论文还探讨了不同参数设置对性能的影响,并给出了相应的建议。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RegCache能够显著提高量化视觉编码器的精度。在文本监督和自监督视觉编码器上,RegCache均能带来一致的性能提升。具体的数据提升幅度需要在论文中查找,但总体而言,RegCache提供了一种有效的、免训练的视觉编码器量化优化方案。
🎯 应用场景
该研究成果可广泛应用于需要低延迟、低功耗的视觉应用场景,例如移动设备上的图像识别、自动驾驶、机器人导航等。通过降低视觉编码器的推理成本,可以使这些应用在资源受限的平台上运行,并提高实时性。此外,该方法还可以促进多模态智能的发展,例如在自主网络代理和机器人控制等领域。
📄 摘要(原文)
Transformer-based vision encoders -- such as CLIP -- are central to multimodal intelligence, powering applications from autonomous web agents to robotic control. Since these applications often demand real-time processing of massive visual data, reducing the inference cost of vision encoders is critical. Quantization offers a practical path, but remains challenging even at 8-bit precision due to massive-scale activations (i.e., outliers). In this work, we propose $\textit{RegCache}$, a training-free algorithm that mitigates outliers in large-scale pretrained vision encoders and serves as a plug-in module that can be applied on top of other quantization methods. The proposed RegCache introduces outlier-prone yet semantically meaningless prefix tokens to the target vision encoder, which prevents other tokens from having outliers. Notably, we observe that outliers in vision encoders behave differently from those in language models, motivating two technical innovations: middle-layer prefixing and token deletion. Experiments show that our method consistently improves the accuracy of quantized models across both text-supervised and self-supervised vision encoders.