Metric $k$-clustering using only Weak Comparison Oracles

作者: Rahul Raychaudhury, Aryan Esmailpour, Sainyam Galhotra, Stavros Sintos

分类: cs.LG, cs.DS

发布日期: 2026-01-27

期刊: ICLR 2026

💡 一句话要点

提出基于弱比较Oracle的度量k-聚类算法，适用于无精确距离信息的场景

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: k-聚类 弱比较Oracle Rank模型 度量学习 聚类算法 近似算法 倍增维数

📋 核心要点

传统k-聚类算法依赖精确距离，但在许多实际应用中难以获取，限制了算法的应用。
论文提出基于四元组Oracle的聚类方法，仅需相对距离比较，适用于噪声环境和低成本数据源。
算法在任意度量空间和有界倍增维数空间中均取得较好的聚类效果，并降低了查询复杂度。

📝 摘要（中文）

聚类是无监督学习中的一个基本任务。然而，经典的k-聚类算法（如k-median和k-means）假设可以访问精确的成对距离，这在许多现代应用中是不现实的要求。本文研究了Rank模型（R-model）中的聚类问题，其中对距离的访问完全被一个四元组Oracle所取代，该Oracle仅提供相对距离比较。在实践中，这样的Oracle可以代表学习模型或人类反馈，并且预期是有噪声的且需要访问成本。给定一个具有n个输入项的度量空间，我们设计了随机算法，该算法仅使用有噪声的四元组Oracle，计算出一个包含O(k·polylog(n))个中心的集合，以及从输入项到中心的映射，使得该映射的聚类成本至多是最佳k-聚类成本的常数倍。对于任意度量空间，我们的方法实现了O(n·k·polylog(n))的查询复杂度，并且当底层度量具有有界倍增维数时，查询复杂度提高到O((n+k^2)·polylog(n))。当度量具有有界倍增维数时，我们可以进一步将近似从常数提高到1+ε，对于任意小的常数ε∈(0,1)，同时保持相同的渐近查询复杂度。我们的框架展示了如何将有噪声、低成本的Oracle（例如从大型语言模型导出的Oracle）系统地集成到可扩展的聚类算法中。

🔬 方法详解

问题定义：论文旨在解决在无法获取精确成对距离的情况下，如何进行有效的度量k-聚类。现有k-聚类算法依赖精确距离信息，这在许多实际场景中是不现实的，例如，当数据来自人类反馈或学习模型时，只能获得相对距离比较，且数据可能存在噪声。

核心思路：论文的核心思路是利用四元组Oracle提供的相对距离比较信息，代替精确距离信息进行聚类。通过这种方式，算法可以处理噪声数据，并降低对数据获取成本的要求。算法的目标是找到一组中心点，使得每个数据点到其最近中心的距离之和最小化，同时保证查询复杂度尽可能低。

技术框架：整体框架包含以下几个主要阶段：1. 使用四元组Oracle进行采样，选择候选中心点。2. 将每个数据点分配到其最近的中心点，形成聚类。3. 迭代优化中心点和聚类分配，直到收敛。算法的关键在于如何有效地利用四元组Oracle进行采样和分配，以及如何保证算法的收敛性和近似比。

关键创新：最重要的技术创新点在于使用弱比较Oracle（四元组Oracle）代替精确距离信息进行聚类。这种方法使得算法可以应用于更广泛的场景，例如，当数据来自人类反馈或学习模型时。此外，算法还针对不同的度量空间（任意度量空间和有界倍增维数空间）设计了不同的采样和分配策略，以提高算法的效率和近似比。

关键设计：算法的关键设计包括：1. 如何设计四元组Oracle的查询策略，以最小化查询次数，同时保证采样质量。2. 如何设计数据点到中心点的分配策略，以最小化聚类成本。3. 如何设计迭代优化策略，以保证算法的收敛性和近似比。此外，算法还针对有界倍增维数空间设计了特殊的优化策略，以进一步提高算法的效率和近似比。

🖼️ 关键图片

📊 实验亮点

论文提出的算法在理论上证明了其近似比和查询复杂度。对于任意度量空间，算法实现了O(n·k·polylog(n))的查询复杂度，并且当底层度量具有有界倍增维数时，查询复杂度提高到O((n+k^2)·polylog(n))。当度量具有有界倍增维数时，可以将近似比从常数提高到1+ε，同时保持相同的渐近查询复杂度。这些结果表明，该算法在效率和精度方面都具有优势。

🎯 应用场景

该研究成果可应用于推荐系统、图像检索、社交网络分析等领域。例如，在推荐系统中，可以通过用户对物品的偏好关系（相对距离比较）进行用户聚类，从而实现个性化推荐。在图像检索中，可以通过图像之间的相似度比较进行图像聚类，从而提高检索效率。该方法还可以应用于生物信息学、金融风控等领域，具有广泛的应用前景。

📄 摘要（原文）

Clustering is a fundamental primitive in unsupervised learning. However, classical algorithms for $k$-clustering (such as $k$-median and $k$-means) assume access to exact pairwise distances -- an unrealistic requirement in many modern applications. We study clustering in the \emph{Rank-model (R-model)}, where access to distances is entirely replaced by a \emph{quadruplet oracle} that provides only relative distance comparisons. In practice, such an oracle can represent learned models or human feedback, and is expected to be noisy and entail an access cost. Given a metric space with $n$ input items, we design randomized algorithms that, using only a noisy quadruplet oracle, compute a set of $O(k \cdot \mathsf{polylog}(n))$ centers along with a mapping from the input items to the centers such that the clustering cost of the mapping is at most constant times the optimum $k$-clustering cost. Our method achieves a query complexity of $O(n\cdot k \cdot \mathsf{polylog}(n))$ for arbitrary metric spaces and improves to $O((n+k^2) \cdot \mathsf{polylog}(n))$ when the underlying metric has bounded doubling dimension. When the metric has bounded doubling dimension we can further improve the approximation from constant to $1+\varepsilon$, for any arbitrarily small constant $\varepsilon\in(0,1)$, while preserving the same asymptotic query complexity. Our framework demonstrates how noisy, low-cost oracles, such as those derived from large language models, can be systematically integrated into scalable clustering algorithms.

Metric $k$-clustering using only Weak Comparison Oracles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理