Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

📄 arXiv: 2510.27584 📥 PDF

作者: Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly

分类: cs.CV, cs.IR, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出CroVCA,通过跨视图编码对齐实现高效图像哈希,适用于大规模检索。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像哈希 跨视图学习 二值编码 大规模检索 基础模型

📋 核心要点

  1. 现有哈希方法流程复杂、目标函数多项、训练时间长,难以适应大规模检索的需求。
  2. CroVCA通过跨视图编码对齐,利用二元交叉熵损失强制对齐,并最大化编码率防止模型坍塌。
  3. 实验表明,CroVCA在多个基准测试中仅需少量训练周期即可达到SOTA,效率和适应性显著。

📝 摘要(中文)

高效的大规模检索需要紧凑且具有区分性的表示。基础模型提供了强大的视觉和多模态嵌入,但这些高维空间中的最近邻搜索计算成本很高。哈希提供了一种有效的替代方案,它可以通过二值码实现快速的汉明距离搜索。然而,现有的方法通常依赖于复杂的流程、多项式目标、专为单一学习范式设计的结构以及较长的训练时间。我们引入了CroVCA(跨视图编码对齐),这是一个简单而统一的原则,用于学习在语义对齐的视图中保持一致的二值码。单个二元交叉熵损失强制对齐,而编码率最大化则作为一种反崩溃正则化器,以促进平衡和多样化的代码。为了实现这一点,我们设计了HashCoder,这是一个轻量级的MLP哈希网络,带有一个最终的批归一化层,以强制平衡代码。HashCoder可以用作冻结嵌入上的探测头,也可以通过LoRA微调有效地调整编码器。在多个基准测试中,CroVCA仅需5个训练周期即可达到最先进的结果。在16位时,它的性能尤其出色;例如,在单个GPU上,COCO上的无监督哈希在2分钟内完成,ImageNet100上的监督哈希在3分钟内完成。这些结果突出了CroVCA的效率、适应性和广泛的适用性。

🔬 方法详解

问题定义:论文旨在解决大规模图像检索中,如何利用基础模型提取的强大特征,并将其高效压缩成二值哈希码的问题。现有方法通常依赖于复杂的pipeline,多目标优化,以及针对特定学习范式的设计,导致训练效率低,泛化能力受限。

核心思路:论文的核心思路是跨视图编码对齐(Cross-View Code Alignment, CroVCA)。其基本思想是,对于同一图像的不同视图(例如,不同的数据增强版本或不同的模态),其对应的哈希码应该尽可能一致。通过强制不同视图的哈希码对齐,可以学习到更鲁棒和具有区分性的二值表示。

技术框架:CroVCA的技术框架主要包含两个部分:首先,利用预训练的基础模型(例如,CLIP)提取图像的特征嵌入。然后,将这些特征嵌入输入到一个轻量级的哈希网络HashCoder中,生成二值哈希码。HashCoder是一个简单的多层感知机(MLP),其最后一层使用批归一化(Batch Normalization)来保证编码的平衡性。整个训练过程通过最小化跨视图的二元交叉熵损失,并最大化编码率(通过正则化项)来实现。

关键创新:CroVCA的关键创新在于其简单性和通用性。它避免了复杂的pipeline和多目标优化,而是采用了一个单一的二元交叉熵损失来实现跨视图的编码对齐。此外,CroVCA可以很容易地应用于不同的基础模型和学习范式(例如,监督学习、无监督学习),具有很强的适应性。

关键设计:HashCoder是一个轻量级的MLP网络,其最后一层使用批归一化来保证编码的平衡性。损失函数包含两项:二元交叉熵损失用于强制跨视图的编码对齐,编码率最大化项(通过正则化实现)用于防止模型坍塌,保证编码的多样性。论文中提到,仅需5个训练epoch即可取得SOTA结果,体现了其高效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

CroVCA在多个基准测试中取得了最先进的结果,并且训练效率极高。例如,在16位哈希码的设置下,COCO数据集上的无监督哈希可以在2分钟内完成,ImageNet100数据集上的监督哈希可以在3分钟内完成,均在单个GPU上运行。这表明CroVCA在效率和性能上都优于现有方法。

🎯 应用场景

该研究成果可广泛应用于大规模图像检索、相似图像搜索、图像聚类等领域。通过将高维图像特征压缩成紧凑的二值哈希码,可以显著降低存储空间和计算复杂度,从而实现高效的图像检索。该方法尤其适用于处理海量图像数据,例如在电商平台、搜索引擎、社交媒体等场景中。

📄 摘要(原文)

Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long training times. We introduce CroVCA (Cross-View Code Alignment), a simple and unified principle for learning binary codes that remain consistent across semantically aligned views. A single binary cross-entropy loss enforces alignment, while coding-rate maximization serves as an anti-collapse regularizer to promote balanced and diverse codes. To implement this, we design HashCoder, a lightweight MLP hashing network with a final batch normalization layer to enforce balanced codes. HashCoder can be used as a probing head on frozen embeddings or to adapt encoders efficiently via LoRA fine-tuning. Across benchmarks, CroVCA achieves state-of-the-art results in just 5 training epochs. At 16 bits, it performs particularly well; for instance, unsupervised hashing on COCO completes in under 2 minutes and supervised hashing on ImageNet100 in about 3 minutes on a single GPU. These results highlight CroVCA's efficiency, adaptability, and broad applicability.