Vector Linking via Cross-Model Local Isometric Consistency

作者: Ziying Chen, Yang Cao, He Sun, Beining Yang, Tianjian Yang

分类: cs.AI, cs.DB, cs.IR

发布日期: 2026-05-29

备注: Accepted at ICML 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于局部等距一致性的向量链接方法，用于跨模型对象对应恢复。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting)

关键词: 向量链接 跨模型对应 局部几何一致性 对比学习 嵌入哈希

📋 核心要点

现有方法难以仅利用向量信息，在不同黑盒编码器产生的嵌入空间中建立对象对应关系。
利用对比编码器局部几何一致性，通过参考锚点的距离表示向量，并使用哈希空间匹配寻找候选链接。
通过Beta-Bernoulli后验聚合证据，迭代引导高置信度链接作为新锚点，实现准确鲁棒的向量链接。

📝 摘要（中文）

本文研究向量链接问题：给定由不同黑盒编码器在部分重叠数据集上生成的两个嵌入云，仅使用向量恢复跨模型对象对应关系。通过实验和理论分析，我们证明独立训练的对比编码器表现出局部几何一致性：短程距离近似保持到一个比例因子，而长程距离由于模型特定的扭曲而无法保持。基于此，我们提出了一种迭代的、基于参考的几何嵌入哈希方法，该方法从一小部分配对锚点种子集中恢复向量链接。它通过到采样的配对锚点的距离来表示每个向量，通过哈希空间匹配来提出候选链接，并在 Beta-Bernoulli 后验中聚合跨视图的证据，以引导高置信度的链接作为新的锚点。在多个基准和嵌入模型对上的实验表明，在不同的重叠、种子预算和域外锚点下，链接是准确和鲁棒的，并应用于向量数据库集成和跨模型聚类。

🔬 方法详解

问题定义：论文旨在解决向量链接问题，即在给定两个由不同黑盒编码器生成的嵌入向量集合，且这两个集合对应于部分重叠的数据集时，如何仅利用向量信息恢复跨模型的对象对应关系。现有方法在处理这种跨模型、部分重叠的数据集时，难以有效利用向量的几何信息，并且对噪声和异常值敏感。

核心思路：论文的核心思路是利用对比编码器所表现出的局部几何一致性。具体来说，即使是独立训练的对比编码器，在局部范围内，向量之间的距离关系仍然能够近似保持（仅相差一个比例因子）。因此，可以通过比较向量到一些参考锚点的距离，来判断它们是否对应于同一个对象。

技术框架：该方法采用迭代的、基于参考的几何嵌入哈希框架。主要包含以下几个阶段：1) 锚点选择：首先，从已知的配对数据中选择一小部分作为初始锚点。2) 嵌入哈希：对于每个向量，计算其到所有锚点的距离，并将这些距离进行哈希编码，得到该向量的哈希表示。3) 候选链接生成：通过比较不同模型中向量的哈希表示，找到相似的向量对，作为候选链接。4) 证据聚合与引导：使用 Beta-Bernoulli 后验模型，聚合来自不同视图（即不同的嵌入模型）的证据，评估候选链接的置信度。将高置信度的链接作为新的锚点，迭代进行上述过程，直到收敛。

关键创新：该方法最重要的创新点在于利用了对比编码器的局部几何一致性，并将其应用于向量链接问题。与传统的基于全局相似度的方法不同，该方法更加关注局部结构，因此对模型特定的扭曲和噪声具有更强的鲁棒性。此外，迭代的引导过程能够逐步提高链接的准确性。

关键设计：在锚点选择方面，论文采用随机抽样的方法选择初始锚点。在哈希编码方面，论文使用了一种基于距离的哈希函数，将向量到锚点的距离映射到哈希码。在证据聚合方面，Beta-Bernoulli 后验模型用于评估候选链接的置信度，并根据置信度更新锚点集合。具体参数设置和损失函数细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个基准数据集和嵌入模型对上都取得了良好的链接效果。在不同的重叠比例、种子预算和域外锚点下，该方法都表现出较强的鲁棒性。例如，在某个数据集上，该方法在只有少量种子的情况下，仍然能够达到超过90%的链接准确率，显著优于其他基线方法。

🎯 应用场景

该研究具有广泛的应用前景，例如向量数据库集成，可以将来自不同来源的向量数据进行整合，提高数据利用率。此外，该方法还可以应用于跨模型聚类，将来自不同模型的特征表示进行对齐，从而提高聚类效果。该技术在多模态学习、知识图谱构建等领域具有潜在的应用价值。

📄 摘要（原文）

We study Vector Linking: given two embedding clouds produced by different black-box encoders over partially overlapping datasets, recover cross-model object correspondences using only vectors. Empirically and theoretically, we show that independently trained contrastive encoders exhibit local geometric consistency: short-range distances are approximately preserved up to a scale factor, while long-range distances are not due to model-specific distortion. Building on this, we propose an iterative, reference-based geometric embedding hashing that recovers vector links from a tiny seed set of paired anchors. It represents each vector by distances to sampled paired anchors, proposes candidate links via hash-space matching, and aggregates evidence across views in a Beta-Bernoulli posterior to bootstrap high-confidence links as new anchors. Experiments across multiple benchmarks and embedding model pairs demonstrate accurate and robust linking under varying overlap, seed budgets, and out-of-domain anchors, with applications to vector database integration and cross-model clustering. Code is available at https://github.com/DBgroup-Edinburgh/VecLinking.

Vector Linking via Cross-Model Local Isometric Consistency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理