Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

作者: Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly

分类: cs.CV, cs.IR, cs.LG

发布日期: 2025-10-31 (更新: 2025-11-03)

💡 一句话要点

提出CroVCA，通过跨视图编码对齐实现高效图像哈希检索

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像哈希 跨视图学习 二值编码 大规模检索 深度学习

📋 核心要点

现有哈希方法流程复杂、训练时间长，且缺乏对不同学习范式的统一性。
CroVCA通过跨视图编码对齐，利用二元交叉熵损失和编码率最大化，学习一致且平衡的二值码。
实验表明，CroVCA在多个基准测试中仅用少量训练周期就达到了最先进的性能，效率显著。

📝 摘要（中文）

高效的大规模检索需要紧凑且具有区分性的表示。基础模型提供了强大的视觉和多模态嵌入，但这些高维空间中的最近邻搜索计算成本很高。哈希提供了一种有效的替代方案，它可以通过二值码实现快速的汉明距离搜索。然而，现有的方法通常依赖于复杂的流程、多项式目标、专为单一学习范式设计的结构以及较长的训练时间。我们引入了CroVCA（跨视图编码对齐），这是一个简单而统一的原则，用于学习在语义对齐的视图中保持一致的二值码。单个二元交叉熵损失强制对齐，而编码率最大化则作为一种反崩塌正则化器，以促进平衡和多样化的编码。为了实现这一点，我们设计了HashCoder，这是一个轻量级的MLP哈希网络，带有一个最终的批归一化层，以强制平衡编码。HashCoder可以用作冻结嵌入上的探测头，也可以通过LoRA微调有效地调整编码器。在多个基准测试中，CroVCA仅用5个训练周期就实现了最先进的结果。在16位时，它表现得特别好——例如，在COCO上的无监督哈希在单个GPU上不到2分钟即可完成，而在ImageNet100上的监督哈希在约3分钟内完成。这些结果突出了CroVCA的效率、适应性和广泛的适用性。

🔬 方法详解

问题定义：论文旨在解决大规模图像检索中，如何利用预训练的视觉或多模态模型，高效生成高质量二值哈希码的问题。现有方法通常需要复杂的训练流程、多目标优化，且难以适应不同的学习范式，导致训练成本高昂，泛化能力受限。

核心思路：论文的核心思路是跨视图编码对齐（Cross-View Code Alignment, CroVCA）。它假设对于同一图像的不同视图（例如，不同的数据增强版本或不同的模态），其哈希码应该保持一致。通过强制不同视图的哈希码对齐，可以学习到更鲁棒、更具语义信息的二值表示。

技术框架：整体框架包含两个主要部分：1) 特征提取器：可以使用预训练的视觉或多模态模型（例如，CLIP）提取图像特征。这些模型可以是冻结的，也可以通过LoRA等技术进行微调。2) HashCoder：一个轻量级的多层感知机（MLP），将提取的特征映射到二值哈希码。HashCoder包含一个批归一化层，用于平衡编码。训练过程中，对同一图像的不同视图，分别提取特征并生成哈希码，然后通过损失函数进行优化。

关键创新：论文的关键创新在于提出了CroVCA这一简单而有效的哈希码学习原则。与现有方法相比，CroVCA具有以下优势：1) 统一性：可以应用于不同的学习范式（监督、无监督、自监督）。2) 简单性：只需要一个二元交叉熵损失函数和一个编码率最大化正则化项。3) 高效性：训练速度快，只需要少量训练周期即可达到良好的性能。

关键设计：1) 损失函数：使用二元交叉熵损失函数来强制不同视图的哈希码对齐。2) 正则化项：使用编码率最大化作为正则化项，鼓励生成平衡且多样化的哈希码，防止编码坍塌。3) HashCoder：使用一个轻量级的MLP作为哈希网络，并添加批归一化层以平衡编码。4) LoRA微调：可以使用LoRA技术对预训练的特征提取器进行微调，以进一步提高性能。

📊 实验亮点

CroVCA在多个图像哈希基准测试中取得了最先进的结果。例如，在COCO数据集上进行无监督哈希时，仅使用16位哈希码，在单个GPU上不到2分钟即可完成训练。在ImageNet100数据集上进行监督哈希时，训练时间约为3分钟。这些结果表明，CroVCA具有很高的效率和良好的性能。

🎯 应用场景

该研究成果可广泛应用于大规模图像检索、相似图像搜索、图像聚类等领域。例如，在电商平台中，可以利用该方法快速检索与用户上传图片相似的商品；在图像搜索引擎中，可以加速图像的索引和检索过程。此外，该方法还可以应用于视频检索、多模态检索等场景，具有重要的实际应用价值。

📄 摘要（原文）

Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long training times. We introduce CroVCA (Cross-View Code Alignment), a simple and unified principle for learning binary codes that remain consistent across semantically aligned views. A single binary cross-entropy loss enforces alignment, while coding-rate maximization serves as an anti-collapse regularizer to promote balanced and diverse codes. To implement this, we design HashCoder, a lightweight MLP hashing network with a final batch normalization layer to enforce balanced codes. HashCoder can be used as a probing head on frozen embeddings or to adapt encoders efficiently via LoRA fine-tuning. Across benchmarks, CroVCA achieves state-of-the-art results in just 5 training epochs. At 16 bits, it particularly well-for instance, unsupervised hashing on COCO completes in under 2 minutes and supervised hashing on ImageNet100 in about 3 minutes on a single GPU. These results highlight CroVCA's efficiency, adaptability, and broad applicability.

Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册