Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

作者: Ilyass Moummad, Kawtar Zaher, Hervé Goëau, Alexis Joly

分类: cs.CV, cs.IR, cs.LG

发布日期: 2026-04-07

💡 一句话要点

提出CroVCA，通过跨视图编码对齐实现高效图像哈希，适用于大规模检索。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像哈希 跨视图学习 二值编码 大规模检索 基础模型

📋 核心要点

现有哈希方法流程复杂、目标函数多项、训练时间长，难以适应大规模检索的需求。
CroVCA通过跨视图编码对齐，利用二元交叉熵损失强制对齐，并最大化编码率防止模型坍塌。
实验表明，CroVCA在多个基准测试中仅需少量训练周期即可达到SOTA，效率和适应性显著。

📝 摘要（中文）

高效的大规模检索需要紧凑且具有区分性的表示。基础模型提供了强大的视觉和多模态嵌入，但这些高维空间中的最近邻搜索计算成本很高。哈希提供了一种有效的替代方案，它可以通过二值码实现快速的汉明距离搜索。然而，现有的方法通常依赖于复杂的流程、多项式目标、专为单一学习范式设计的结构以及较长的训练时间。我们引入了CroVCA（跨视图编码对齐），这是一个简单而统一的原则，用于学习在语义对齐的视图中保持一致的二值码。单个二元交叉熵损失强制对齐，而编码率最大化则作为一种反崩溃正则化器，以促进平衡和多样化的代码。为了实现这一点，我们设计了HashCoder，这是一个轻量级的MLP哈希网络，带有一个最终的批归一化层，以强制平衡代码。HashCoder可以用作冻结嵌入上的探测头，也可以通过LoRA微调有效地调整编码器。在多个基准测试中，CroVCA仅需5个训练周期即可达到最先进的结果。在16位时，它的性能尤其出色；例如，在单个GPU上，COCO上的无监督哈希在2分钟内完成，ImageNet100上的监督哈希在3分钟内完成。这些结果突出了CroVCA的效率、适应性和广泛的适用性。

🔬 方法详解

问题定义：论文旨在解决大规模图像检索中，如何利用基础模型提取的强大特征，并将其高效压缩成二值哈希码的问题。现有方法通常依赖于复杂的pipeline，多目标优化，以及针对特定学习范式的设计，导致训练效率低，泛化能力受限。

核心思路：论文的核心思路是跨视图编码对齐（Cross-View Code Alignment, CroVCA）。其基本思想是，对于同一图像的不同视图（例如，不同的数据增强版本或不同的模态），其对应的哈希码应该尽可能一致。通过强制不同视图的哈希码对齐，可以学习到更鲁棒和具有区分性的二值表示。

技术框架：CroVCA的技术框架主要包含两个部分：首先，利用预训练的基础模型（例如，CLIP）提取图像的特征嵌入。然后，将这些特征嵌入输入到一个轻量级的哈希网络HashCoder中，生成二值哈希码。HashCoder是一个简单的多层感知机（MLP），其最后一层使用批归一化（Batch Normalization）来保证编码的平衡性。整个训练过程通过最小化跨视图的二元交叉熵损失，并最大化编码率（通过正则化项）来实现。

关键创新：CroVCA的关键创新在于其简单性和通用性。它避免了复杂的pipeline和多目标优化，而是采用了一个单一的二元交叉熵损失来实现跨视图的编码对齐。此外，CroVCA可以很容易地应用于不同的基础模型和学习范式（例如，监督学习、无监督学习），具有很强的适应性。

关键设计：HashCoder是一个轻量级的MLP网络，其最后一层使用批归一化来保证编码的平衡性。损失函数包含两项：二元交叉熵损失用于强制跨视图的编码对齐，编码率最大化项（通过正则化实现）用于防止模型坍塌，保证编码的多样性。论文中提到，仅需5个训练epoch即可取得SOTA结果，体现了其高效性。

🖼️ 关键图片

📊 实验亮点

CroVCA在多个基准测试中取得了最先进的结果，并且训练效率极高。例如，在16位哈希码的设置下，COCO数据集上的无监督哈希可以在2分钟内完成，ImageNet100数据集上的监督哈希可以在3分钟内完成，均在单个GPU上运行。这表明CroVCA在效率和性能上都优于现有方法。

🎯 应用场景

该研究成果可广泛应用于大规模图像检索、相似图像搜索、图像聚类等领域。通过将高维图像特征压缩成紧凑的二值哈希码，可以显著降低存储空间和计算复杂度，从而实现高效的图像检索。该方法尤其适用于处理海量图像数据，例如在电商平台、搜索引擎、社交媒体等场景中。

📄 摘要（原文）

Efficient large-scale retrieval requires representations that are both compact and discriminative. Foundation models provide powerful visual and multimodal embeddings, but nearest neighbor search in these high-dimensional spaces is computationally expensive. Hashing offers an efficient alternative by enabling fast Hamming distance search with binary codes, yet existing approaches often rely on complex pipelines, multi-term objectives, designs specialized for a single learning paradigm, and long training times. We introduce CroVCA (Cross-View Code Alignment), a simple and unified principle for learning binary codes that remain consistent across semantically aligned views. A single binary cross-entropy loss enforces alignment, while coding-rate maximization serves as an anti-collapse regularizer to promote balanced and diverse codes. To implement this, we design HashCoder, a lightweight MLP hashing network with a final batch normalization layer to enforce balanced codes. HashCoder can be used as a probing head on frozen embeddings or to adapt encoders efficiently via LoRA fine-tuning. Across benchmarks, CroVCA achieves state-of-the-art results in just 5 training epochs. At 16 bits, it performs particularly well; for instance, unsupervised hashing on COCO completes in under 2 minutes and supervised hashing on ImageNet100 in about 3 minutes on a single GPU. These results highlight CroVCA's efficiency, adaptability, and broad applicability.

Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理