Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

📄 arXiv: 2510.27584v2 📥 PDF

作者: Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly

分类: cs.CV, cs.IR, cs.LG

发布日期: 2025-10-31 (更新: 2025-11-03)


💡 一句话要点

提出CroVCA,通过跨视图编码对齐实现高效图像哈希检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像哈希 跨视图学习 二值编码 大规模检索 深度学习

📋 核心要点

  1. 现有哈希方法流程复杂、训练时间长,且缺乏对不同学习范式的统一性。
  2. CroVCA通过跨视图编码对齐,利用二元交叉熵损失和编码率最大化,学习一致且平衡的二值码。
  3. 实验表明,CroVCA在多个基准测试中仅用少量训练周期就达到了最先进的性能,效率显著。

📝 摘要(中文)

高效的大规模检索需要紧凑且具有区分性的表示。基础模型提供了强大的视觉和多模态嵌入,但这些高维空间中的最近邻搜索计算成本很高。哈希提供了一种有效的替代方案,它可以通过二值码实现快速的汉明距离搜索。然而,现有的方法通常依赖于复杂的流程、多项式目标、专为单一学习范式设计的结构以及较长的训练时间。我们引入了CroVCA(跨视图编码对齐),这是一个简单而统一的原则,用于学习在语义对齐的视图中保持一致的二值码。单个二元交叉熵损失强制对齐,而编码率最大化则作为一种反崩塌正则化器,以促进平衡和多样化的编码。为了实现这一点,我们设计了HashCoder,这是一个轻量级的MLP哈希网络,带有一个最终的批归一化层,以强制平衡编码。HashCoder可以用作冻结嵌入上的探测头,也可以通过LoRA微调有效地调整编码器。在多个基准测试中,CroVCA仅用5个训练周期就实现了最先进的结果。在16位时,它表现得特别好——例如,在COCO上的无监督哈希在单个GPU上不到2分钟即可完成,而在ImageNet100上的监督哈希在约3分钟内完成。这些结果突出了CroVCA的效率、适应性和广泛的适用性。

🔬 方法详解

问题定义:论文旨在解决大规模图像检索中,如何利用预训练的视觉或多模态模型,高效生成高质量二值哈希码的问题。现有方法通常需要复杂的训练流程、多目标优化,且难以适应不同的学习范式,导致训练成本高昂,泛化能力受限。

核心思路:论文的核心思路是跨视图编码对齐(Cross-View Code Alignment, CroVCA)。它假设对于同一图像的不同视图(例如,不同的数据增强版本或不同的模态),其哈希码应该保持一致。通过强制不同视图的哈希码对齐,可以学习到更鲁棒、更具语义信息的二值表示。

技术框架:整体框架包含两个主要部分:1) 特征提取器:可以使用预训练的视觉或多模态模型(例如,CLIP)提取图像特征。这些模型可以是冻结的,也可以通过LoRA等技术进行微调。2) HashCoder:一个轻量级的多层感知机(MLP),将提取的特征映射到二值哈希码。HashCoder包含一个批归一化层,用于平衡编码。训练过程中,对同一图像的不同视图,分别提取特征并生成哈希码,然后通过损失函数进行优化。

关键创新:论文的关键创新在于提出了CroVCA这一简单而有效的哈希码学习原则。与现有方法相比,CroVCA具有以下优势:1) 统一性:可以应用于不同的学习范式(监督、无监督、自监督)。2) 简单性:只需要一个二元交叉熵损失函数和一个编码率最大化正则化项。3) 高效性:训练速度快,只需要少量训练周期即可达到良好的性能。

关键设计:1) 损失函数:使用二元交叉熵损失函数来强制不同视图的哈希码对齐。2) 正则化项:使用编码率最大化作为正则化项,鼓励生成平衡且多样化的哈希码,防止编码坍塌。3) HashCoder:使用一个轻量级的MLP作为哈希网络,并添加批归一化层以平衡编码。4) LoRA微调:可以使用LoRA技术对预训练的特征提取器进行微调,以进一步提高性能。

📊 实验亮点

CroVCA在多个图像哈希基准测试中取得了最先进的结果。例如,在COCO数据集上进行无监督哈希时,仅使用16位哈希码,在单个GPU上不到2分钟即可完成训练。在ImageNet100数据集上进行监督哈希时,训练时间约为3分钟。这些结果表明,CroVCA具有很高的效率和良好的性能。

🎯 应用场景

该研究成果可广泛应用于大规模图像检索、相似图像搜索、图像聚类等领域。例如,在电商平台中,可以利用该方法快速检索与用户上传图片相似的商品;在图像搜索引擎中,可以加速图像的索引和检索过程。此外,该方法还可以应用于视频检索、多模态检索等场景,具有重要的实际应用价值。

📄 摘要(原文)

Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long training times. We introduce CroVCA (Cross-View Code Alignment), a simple and unified principle for learning binary codes that remain consistent across semantically aligned views. A single binary cross-entropy loss enforces alignment, while coding-rate maximization serves as an anti-collapse regularizer to promote balanced and diverse codes. To implement this, we design HashCoder, a lightweight MLP hashing network with a final batch normalization layer to enforce balanced codes. HashCoder can be used as a probing head on frozen embeddings or to adapt encoders efficiently via LoRA fine-tuning. Across benchmarks, CroVCA achieves state-of-the-art results in just 5 training epochs. At 16 bits, it particularly well-for instance, unsupervised hashing on COCO completes in under 2 minutes and supervised hashing on ImageNet100 in about 3 minutes on a single GPU. These results highlight CroVCA's efficiency, adaptability, and broad applicability.