DIVE: Embedding Compression via Self-Limiting Gradient Updates
作者: Dongfang Zhao
分类: cs.CL, cs.AI, cs.IR, cs.LG
发布日期: 2026-05-20
💡 一句话要点
DIVE:通过自限制梯度更新实现嵌入压缩,提升小样本检索性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 嵌入压缩 向量检索 自监督学习 对比学习 适配器 小样本学习
📋 核心要点
- 现有嵌入压缩方法在小样本情况下易过拟合,导致检索性能下降。
- DIVE通过自限制三元组损失和隐式视图集成,缓解过拟合问题。
- 实验表明,DIVE在多个BEIR数据集上显著优于现有压缩适配器。
📝 摘要(中文)
来自大型语言模型的高维嵌入给向量搜索系统带来了巨大的存储和计算成本。最近的嵌入压缩方法,包括Matryoshka-Adaptor (EMNLP 2024)、Search-Adaptor (ACL 2024)和SMEC (EMNLP 2025),通过轻量级的残差适配器实现降维,但它们的训练目标在标记数据稀缺时会导致严重的过拟合,使检索性能低于冻结的基线。我们提出了DIVE(具有隐式视图集成的降维),一种压缩适配器,通过两种机制解决这一问题。首先,一种自限制的基于铰链的三元组损失,一旦三元组满足margin约束,就会产生零梯度,从而限制应用于预训练嵌入空间的总体扰动。其次,一种head-wise的NT-Xent对比损失将每个嵌入的多个学习投影视为隐式视图,提供密集的自监督梯度,以补偿小数据集上三元组信号的稀疏性。在六个BEIR数据集上,DIVE在每个数据集和每个评估的压缩比上都优于所有三个基线适配器,并提供了一个14M参数的开源实现。
🔬 方法详解
问题定义:论文旨在解决大型语言模型产生的高维嵌入在向量检索系统中带来的存储和计算成本问题。现有基于适配器的嵌入压缩方法,如Matryoshka-Adaptor、Search-Adaptor和SMEC,在标记数据稀缺时容易过拟合,导致压缩后的嵌入检索性能反而不如原始嵌入。
核心思路:DIVE的核心思路是通过限制梯度更新的幅度,并引入自监督学习信号来缓解过拟合问题。具体来说,DIVE使用自限制的三元组损失来约束对预训练嵌入空间的扰动,并利用head-wise的NT-Xent对比损失来提供密集的自监督梯度。
技术框架:DIVE采用适配器架构,在预训练的语言模型嵌入之上添加一个轻量级的残差适配器。该适配器包含多个head,每个head将原始嵌入投影到低维空间。训练过程中,DIVE同时使用自限制的三元组损失和head-wise的NT-Xent对比损失来优化适配器的参数。
关键创新:DIVE的关键创新在于其自限制梯度更新机制和隐式视图集成。自限制梯度更新通过在满足margin约束时停止梯度更新,有效地控制了对预训练嵌入空间的扰动。隐式视图集成则通过将每个嵌入的多个投影视为不同的视图,利用对比学习来提供额外的自监督信号,从而缓解了小样本情况下的过拟合问题。
关键设计:DIVE使用基于铰链的三元组损失,当正样本对的距离小于负样本对的距离加上一个margin时,损失为零,梯度也为零。NT-Xent对比损失则在每个head上计算,将同一嵌入的不同投影视为正样本对,不同嵌入的投影视为负样本对。适配器的结构和head的数量是重要的超参数,需要在实验中进行调整。
🖼️ 关键图片
📊 实验亮点
DIVE在六个BEIR数据集上进行了评估,结果表明DIVE在所有数据集和所有评估的压缩比上都优于Matryoshka-Adaptor、Search-Adaptor和SMEC等基线方法。这表明DIVE能够有效地缓解小样本情况下的过拟合问题,并实现更好的嵌入压缩性能。论文提供了一个14M参数的开源实现,方便研究人员使用和进一步研究。
🎯 应用场景
DIVE可应用于各种需要对高维嵌入进行压缩的场景,例如大规模向量检索、推荐系统、自然语言处理等。通过降低存储和计算成本,DIVE能够使这些应用在资源受限的环境中也能高效运行。此外,DIVE在小样本情况下的优越性能使其特别适用于标注数据稀缺的领域。
📄 摘要(原文)
High-dimensional embeddings from large language models impose significant storage and computational costs on vector search systems. Recent embedding compression methods, including Matryoshka-Adaptor (EMNLP 2024), Search-Adaptor (ACL 2024), and SMEC (EMNLP 2025), enable dimensionality reduction through lightweight residual adapters, but their training objectives cause severe overfitting when labeled data is scarce, degrading retrieval performance below the frozen baseline. We propose \textsc{DIVE} (\textbf{D}imensionality reduction with \textbf{I}mplicit \textbf{V}iew \textbf{E}nsembles), a compression adapter that addresses this failure through two mechanisms. First, a self-limiting hinge-based triplet loss produces zero gradient once a triplet satisfies the margin constraint, bounding the total perturbation applied to the pretrained embedding space. Second, a head-wise NT-Xent contrastive loss treats multiple learned projections of each embedding as implicit views, providing dense self-supervised gradients that compensate for the sparsity of the triplet signal on small datasets. Across six BEIR datasets, \textsc{DIVE} outperforms all three baseline adapters on every dataset and at every evaluated compression ratio, with a 14M-parameter open-source implementation.