DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency
作者: Shuyang Jiang, Nan Yu, Yiming Zhang, Zenghui Ding, Zhenyu Wu
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-05-07
备注: 18 pages, 7 figures, 9 tables. Code will be made publicly available upon acceptance
💡 一句话要点
DINORANKCLIP:通过DINOv3蒸馏和高阶排序一致性进行视觉-语言预训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉-语言预训练 知识蒸馏 高阶排序 DINOv3 细粒度视觉理解
📋 核心要点
- CLIP忽略了图像-文本对之间的排序关系,且全局池化导致视觉特征丢失细粒度信息。
- DINORANKCLIP通过DINOv3蒸馏增强视觉表示,并引入高阶Plackett-Luce排序损失。
- 实验表明,DINORANKCLIP在细粒度和分布外评估中显著优于CLIP等基线模型。
📝 摘要(中文)
对比语言-图像预训练(CLIP)存在两个结构性弱点:对称的InfoNCE损失忽略了批次内未匹配对之间的相对排序,全局池化将视觉表示压缩成对细粒度局部结构不敏感的语义瓶颈。RANKCLIP通过列表式Plackett-Luce排序一致性损失部分解决了第一个问题,但其模型本质上是一阶的,并且未触及第二个弱点。我们提出了DINORANKCLIP,一个联合解决这两个问题的预训练框架。我们的主要贡献是通过双分支轻量级学生网络和具有通道-空间注意力的多尺度融合模块、自注意力精炼器以及保留高达一阶跨模态对齐的冲突感知门,将冻结的DINOv3教师模型注入到对比主干中。此外,我们引入了一个高阶Plackett-Luce排序模型,其中每个位置的效用通过注意力参数化的成对和元组式转移项进行增强;该家族包含CLIP和RANKCLIP作为嵌套的零阶和一阶特殊情况,并且在每个基准测试上的最佳阶数为R*=3。完整的实证研究——阶数扫描、五个数据集上的细粒度探针、四节点模态差距分析、六种变体的融合消融——在单个八GPU H100节点上只需72小时,并且完全在Conceptual Captions 3M上进行训练。在匹配的计算量下,DINORANKCLIP始终优于CLIP、CyCLIP、ALIP和RANKCLIP,在最直接强调局部结构推理的细粒度和分布外评估中,相对增益最大。
🔬 方法详解
问题定义:CLIP模型在视觉-语言预训练中存在两个主要问题。一是InfoNCE损失函数忽略了未匹配图像-文本对之间的排序信息,导致模型无法学习到更细粒度的关系。二是全局池化操作会丢失视觉特征中的局部结构信息,使得模型对细粒度视觉差异不敏感。
核心思路:DINORANKCLIP的核心思路是通过知识蒸馏和高阶排序一致性来解决CLIP的上述问题。具体来说,利用预训练的DINOv3模型作为教师模型,提取更丰富的视觉特征,并通过蒸馏的方式传递给学生模型。同时,引入高阶Plackett-Luce排序损失,利用图像-文本对之间的排序信息来优化模型。
技术框架:DINORANKCLIP的整体框架包括以下几个主要模块:1) 双分支轻量级学生网络:用于学习视觉和文本的表示。2) 多尺度融合模块:将DINOv3提取的多尺度视觉特征与学生网络的视觉特征进行融合,增强视觉表示。3) 自注意力精炼器:进一步提升融合后的视觉特征的质量。4) 冲突感知门:用于平衡DINOv3的知识和原始CLIP的跨模态对齐。5) 高阶Plackett-Luce排序损失:利用图像-文本对之间的排序信息来优化模型。
关键创新:DINORANKCLIP的关键创新在于以下两点:1) DINOv3蒸馏:通过将DINOv3的知识传递给CLIP模型,显著提升了视觉表示的质量。2) 高阶Plackett-Luce排序损失:利用图像-文本对之间的高阶排序信息,使得模型能够学习到更细粒度的关系。与现有方法相比,DINORANKCLIP能够更好地利用视觉特征中的局部结构信息,并且能够学习到更细粒度的图像-文本关系。
关键设计:高阶Plackett-Luce排序损失的关键设计在于引入了注意力参数化的成对和元组式转移项,从而能够捕捉到图像-文本对之间的高阶关系。最佳阶数R*=3,这意味着考虑三元组关系能够获得最佳性能。此外,多尺度融合模块中的通道-空间注意力机制能够有效地融合DINOv3提取的多尺度视觉特征。
🖼️ 关键图片
📊 实验亮点
DINORANKCLIP在Conceptual Captions 3M数据集上进行训练,并在多个基准测试中取得了显著的性能提升。尤其是在细粒度和分布外评估中,DINORANKCLIP的性能优于CLIP、CyCLIP、ALIP和RANKCLIP等基线模型,证明了其在学习细粒度视觉信息方面的优势。例如,在某些细粒度数据集上,DINORANKCLIP的性能提升幅度超过了10%。
🎯 应用场景
DINORANKCLIP可应用于各种视觉-语言任务,如图像检索、视觉问答、图像描述等。其对细粒度视觉信息的敏感性使其在需要精细理解图像内容的场景中具有优势。该研究有助于提升视觉-语言模型的性能和泛化能力,推动相关领域的发展。
📄 摘要(原文)
Contrastive language-image pretraining (CLIP) suffers from two structural weaknesses: the symmetric InfoNCE loss discards the relative ordering among unmatched in-batch pairs, and global pooling collapses the visual representation into a semantic bottleneck that is poorly sensitive to fine-grained local structure. RANKCLIP partially addresses the first issue with a list-wise Plackett-Luce ranking-consistency loss, but its model is strictly first-order and inherits the second weakness untouched. We propose DINORANKCLIP, a pretraining framework that addresses both jointly. Our principal contribution is injecting a frozen DINOv3 teacher into the contrastive trunk through a dual-branch lightweight student and a multi-scale fusion module with channel-spatial attention, a self-attention refiner, and a conflict-aware gate that preserves the cross-modal alignment up to first order. Complementarily, we introduce a high-order Plackett-Luce ranking model in which the per-position utility is augmented with attention-parameterised pairwise and tuple-wise transition terms; the family contains CLIP and RANKCLIP as nested zero-order and first-order special cases, and the optimal order on every benchmark is $R^*=3$. The full empirical study -- order sweep, Fine-grained Probe on five datasets, four-node Modality-Gap analysis, six-variant Fusion ablation -- fits in 72 hours on a single eight-GPU H100 node and trains entirely on Conceptual Captions 3M. DINORANKCLIP consistently outperforms CLIP, CyCLIP, ALIP, and RANKCLIP under matched compute, with the largest relative gains on the fine-grained and out-of-distribution evaluations that most directly stress local structural reasoning.