TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge

作者: Shu-Hao Zhang, Wei-Cheng Tang, Chen Wu, Peng Hu, Nan Li, Liang-Jie Zhang, Qi Zhang, Shao-Qun Zhang

分类: cs.CV, cs.AI

发布日期: 2025-10-23

💡 一句话要点

TernaryCLIP：通过三元权重和知识蒸馏高效压缩视觉-语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CLIP模型压缩 三元量化 量化感知训练 知识蒸馏 视觉-语言模型 模型加速 资源受限设备

📋 核心要点

现有CLIP模型参数量大，计算成本高，难以在资源受限设备上部署。
TernaryCLIP通过将CLIP模型的权重三元化，并结合量化感知训练和知识蒸馏，实现模型压缩和加速。
实验表明，TernaryCLIP在保持性能的同时，实现了显著的压缩率、推理加速和内存优化。

📝 摘要（中文）

本文提出TernaryCLIP，一个轻量级的计算框架，将CLIP模型的视觉和文本编码器的连接权重转换为三元格式，而非全精度或浮点格式。TernaryCLIP结合了量化感知训练和蒸馏模块，以防止精度下降，并实现低成本和高效的计算。综合实验表明，TernaryCLIP可以实现高达99%的三元化权重，使用1.58位的表示，16.98倍的压缩率，2.3倍的推理加速，16倍的存储减少，10倍的内存优化和60%的稀疏性，同时在41个常用数据集上的零样本图像分类和图像-文本检索任务中保持良好的性能。这项工作突出了对大型多模态模型进行极端量化的可行性，支持在资源受限的设备上进行有效和高效的部署。模型和代码可以在Hugging Face和GitHub上访问。

🔬 方法详解

问题定义：论文旨在解决CLIP模型计算开销大，难以在资源受限设备上部署的问题。现有方法通常采用模型剪枝或量化，但这些方法在极端量化（如二值化或三元化）时，性能下降明显。

核心思路：论文的核心思路是将CLIP模型的权重三元化，即权重取值为{-1, 0, 1}。为了弥补三元化带来的精度损失，论文采用了量化感知训练和知识蒸馏技术。量化感知训练在训练过程中模拟量化操作，使模型适应三元权重。知识蒸馏则利用原始CLIP模型作为教师模型，指导三元化后的学生模型学习。

技术框架：TernaryCLIP的整体框架包括三个主要阶段：1) 权重三元化：将CLIP模型的视觉和文本编码器的权重转换为三元格式。2) 量化感知训练：在训练过程中，模拟权重三元化操作，并使用量化后的权重进行前向传播和反向传播。3) 知识蒸馏：使用原始CLIP模型作为教师模型，利用其输出logits指导三元化后的学生模型进行训练。

关键创新：论文的关键创新在于将三元化权重、量化感知训练和知识蒸馏相结合，实现了CLIP模型的极端压缩和加速，同时保持了良好的性能。与传统的二值化或三元化方法相比，TernaryCLIP通过量化感知训练和知识蒸馏，有效地缓解了精度损失。

关键设计：论文的关键设计包括：1) 使用Straight-Through Estimator (STE)进行量化感知训练，解决梯度消失问题。2) 设计了基于logits的知识蒸馏损失函数，鼓励学生模型学习教师模型的输出分布。3) 对视觉和文本编码器分别进行三元化，并针对不同模态的特点进行优化。

📊 实验亮点

实验结果表明，TernaryCLIP在41个常用数据集上实现了显著的压缩和加速效果。具体来说，TernaryCLIP实现了高达99%的三元化权重，16.98倍的压缩率，2.3倍的推理加速，16倍的存储减少，10倍的内存优化和60%的稀疏性，同时在零样本图像分类和图像-文本检索任务中保持了与原始CLIP模型相近的性能。

🎯 应用场景

TernaryCLIP可应用于移动设备、嵌入式系统等资源受限的场景，实现高效的图像-文本理解和检索。例如，在智能手机上进行图像搜索、在机器人上进行视觉导航、在可穿戴设备上进行图像识别等。该研究为大型多模态模型在边缘设备上的部署提供了新的思路。

📄 摘要（原文）

Recent years have witnessed an increasing interest in image-text contrastive modeling, exemplified by models such as Contrastive Language-Image Pretraining (CLIP). In this paper, we propose the TernaryCLIP, a lightweight computational framework that converts connection weights of both vision and text encoders of CLIP into the ternary format, instead of full-precision or floating ones. TernaryCLIP incorporates quantization-aware training and distillation modules, preventing precision degradation and enabling low-cost and high-efficiency computations. Comprehensive experiments demonstrate that TernaryCLIP can achieve up to 99\% ternarized weights with 1.58-bit representation, 16.98 $\times$ compression ratio, 2.3 $\times$ inference acceleration, 16 $\times$ storage reduction, 10 $\times$ memory optimization, and 60\% sparsity while maintaining promising performance on zero-shot image classification and image-text retrieval tasks across 41 commonly used datasets. Our work highlights the feasibility of extreme quantization for large multimodal models, supporting effective and efficient deployment on resource-constrained devices. The model and code can be accessed from Hugging Face and GitHub.

TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册