Vector Linking via Cross-Model Local Isometric Consistency
作者: Ziying Chen, Yang Cao, He Sun, Beining Yang, Tianjian Yang
分类: cs.AI, cs.DB, cs.IR
发布日期: 2026-05-29
备注: Accepted at ICML 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于局部等距一致性的向量链接方法,用于跨模型对象对应恢复。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 向量链接 跨模型对应 局部几何一致性 对比学习 嵌入哈希
📋 核心要点
- 现有方法难以仅利用向量信息,在不同黑盒编码器产生的嵌入空间中建立对象对应关系。
- 利用对比编码器局部几何一致性,通过参考锚点的距离表示向量,并使用哈希空间匹配寻找候选链接。
- 通过Beta-Bernoulli后验聚合证据,迭代引导高置信度链接作为新锚点,实现准确鲁棒的向量链接。
📝 摘要(中文)
本文研究向量链接问题:给定由不同黑盒编码器在部分重叠数据集上生成的两个嵌入云,仅使用向量恢复跨模型对象对应关系。通过实验和理论分析,我们证明独立训练的对比编码器表现出局部几何一致性:短程距离近似保持到一个比例因子,而长程距离由于模型特定的扭曲而无法保持。基于此,我们提出了一种迭代的、基于参考的几何嵌入哈希方法,该方法从一小部分配对锚点种子集中恢复向量链接。它通过到采样的配对锚点的距离来表示每个向量,通过哈希空间匹配来提出候选链接,并在 Beta-Bernoulli 后验中聚合跨视图的证据,以引导高置信度的链接作为新的锚点。在多个基准和嵌入模型对上的实验表明,在不同的重叠、种子预算和域外锚点下,链接是准确和鲁棒的,并应用于向量数据库集成和跨模型聚类。
🔬 方法详解
问题定义:论文旨在解决向量链接问题,即在给定两个由不同黑盒编码器生成的嵌入向量集合,且这两个集合对应于部分重叠的数据集时,如何仅利用向量信息恢复跨模型的对象对应关系。现有方法在处理这种跨模型、部分重叠的数据集时,难以有效利用向量的几何信息,并且对噪声和异常值敏感。
核心思路:论文的核心思路是利用对比编码器所表现出的局部几何一致性。具体来说,即使是独立训练的对比编码器,在局部范围内,向量之间的距离关系仍然能够近似保持(仅相差一个比例因子)。因此,可以通过比较向量到一些参考锚点的距离,来判断它们是否对应于同一个对象。
技术框架:该方法采用迭代的、基于参考的几何嵌入哈希框架。主要包含以下几个阶段:1) 锚点选择:首先,从已知的配对数据中选择一小部分作为初始锚点。2) 嵌入哈希:对于每个向量,计算其到所有锚点的距离,并将这些距离进行哈希编码,得到该向量的哈希表示。3) 候选链接生成:通过比较不同模型中向量的哈希表示,找到相似的向量对,作为候选链接。4) 证据聚合与引导:使用 Beta-Bernoulli 后验模型,聚合来自不同视图(即不同的嵌入模型)的证据,评估候选链接的置信度。将高置信度的链接作为新的锚点,迭代进行上述过程,直到收敛。
关键创新:该方法最重要的创新点在于利用了对比编码器的局部几何一致性,并将其应用于向量链接问题。与传统的基于全局相似度的方法不同,该方法更加关注局部结构,因此对模型特定的扭曲和噪声具有更强的鲁棒性。此外,迭代的引导过程能够逐步提高链接的准确性。
关键设计:在锚点选择方面,论文采用随机抽样的方法选择初始锚点。在哈希编码方面,论文使用了一种基于距离的哈希函数,将向量到锚点的距离映射到哈希码。在证据聚合方面,Beta-Bernoulli 后验模型用于评估候选链接的置信度,并根据置信度更新锚点集合。具体参数设置和损失函数细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个基准数据集和嵌入模型对上都取得了良好的链接效果。在不同的重叠比例、种子预算和域外锚点下,该方法都表现出较强的鲁棒性。例如,在某个数据集上,该方法在只有少量种子的情况下,仍然能够达到超过90%的链接准确率,显著优于其他基线方法。
🎯 应用场景
该研究具有广泛的应用前景,例如向量数据库集成,可以将来自不同来源的向量数据进行整合,提高数据利用率。此外,该方法还可以应用于跨模型聚类,将来自不同模型的特征表示进行对齐,从而提高聚类效果。该技术在多模态学习、知识图谱构建等领域具有潜在的应用价值。
📄 摘要(原文)
We study Vector Linking: given two embedding clouds produced by different black-box encoders over partially overlapping datasets, recover cross-model object correspondences using only vectors. Empirically and theoretically, we show that independently trained contrastive encoders exhibit local geometric consistency: short-range distances are approximately preserved up to a scale factor, while long-range distances are not due to model-specific distortion. Building on this, we propose an iterative, reference-based geometric embedding hashing that recovers vector links from a tiny seed set of paired anchors. It represents each vector by distances to sampled paired anchors, proposes candidate links via hash-space matching, and aggregates evidence across views in a Beta-Bernoulli posterior to bootstrap high-confidence links as new anchors. Experiments across multiple benchmarks and embedding model pairs demonstrate accurate and robust linking under varying overlap, seed budgets, and out-of-domain anchors, with applications to vector database integration and cross-model clustering. Code is available at https://github.com/DBgroup-Edinburgh/VecLinking.