Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

作者: Zihua Yang, Xin Liao, Yiqun Zhang, Yiu-ming Cheung

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-07

💡 一句话要点

提出ARISE，利用大语言模型弥合分类数据聚类中的语义鸿沟

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 分类数据聚类 大语言模型 语义嵌入 注意力机制 外部知识 表示学习

📋 核心要点

分类数据聚类面临语义鸿沟问题，现有方法依赖数据集内部共现模式，在样本有限时表现不佳。
ARISE利用大语言模型（LLM）的外部知识，构建语义感知的表示，弥补分类数据聚类的语义信息缺失。
实验结果表明，ARISE在多个基准数据集上显著优于现有方法，性能提升高达19-27%。

📝 摘要（中文）

分类数据在医疗、市场营销和生物信息学等领域普遍存在，聚类是发现模式的基本工具。分类数据聚类的核心挑战在于衡量属性值之间的相似性，这些属性值缺乏固有的顺序或距离。如果没有适当的相似性度量，这些值通常被视为等距的，从而产生语义鸿沟，掩盖潜在的结构并降低聚类质量。虽然现有的方法从数据集内的共现模式推断值关系，但当样本有限时，这种推断变得不可靠，导致数据的语义上下文未被充分探索。为了弥合这一差距，我们提出了ARISE（Attention-weighted Representation with Integrated Semantic Embeddings），它利用来自大型语言模型（LLM）的外部语义知识来构建语义感知的表示，从而补充分类数据的度量空间，以实现准确的聚类。也就是说，采用LLM来描述属性值以增强表示，并将LLM增强的嵌入与原始数据相结合，以探索语义上突出的聚类。在八个基准数据集上的实验表明，相对于七个代表性方法，ARISE 取得了持续的改进，增益为 19-27%。

🔬 方法详解

问题定义：分类数据聚类中，由于属性值缺乏内在顺序和距离概念，导致难以准确衡量属性值之间的相似性。现有方法主要依赖数据集内部的共现模式来推断值关系，但当数据量较少时，这种推断的可靠性会显著降低，无法有效利用数据中蕴含的语义信息。

核心思路：ARISE的核心思路是利用外部知识，特别是大型语言模型（LLM）中蕴含的丰富语义信息，来增强分类数据的表示。通过将LLM对属性值的语义描述融入到聚类过程中，可以更准确地捕捉属性值之间的关系，从而提高聚类效果。

技术框架：ARISE主要包含以下几个阶段：1) LLM嵌入生成：使用LLM对每个属性值进行描述，生成相应的语义嵌入。2) 注意力权重计算：计算每个属性值在聚类中的重要性，并赋予相应的注意力权重。3) 语义增强表示构建：将LLM生成的语义嵌入与原始数据相结合，构建语义增强的表示。4) 聚类：使用聚类算法（如k-means）对语义增强的表示进行聚类。

关键创新：ARISE的关键创新在于引入了外部语义知识，利用LLM来弥合分类数据聚类中的语义鸿沟。与现有方法相比，ARISE不再局限于数据集内部的信息，而是能够利用更广泛的语义信息来指导聚类过程。

关键设计：在LLM嵌入生成阶段，可以选择不同的LLM模型和prompt策略，以获得更准确的语义描述。注意力权重的计算可以采用不同的方法，例如基于信息增益或方差。在语义增强表示构建阶段，需要仔细设计融合策略，以平衡原始数据和LLM嵌入之间的权重。

🖼️ 关键图片

📊 实验亮点

在八个基准数据集上的实验结果表明，ARISE相对于七个代表性方法取得了显著的性能提升，平均增益达到19-27%。这些数据集涵盖了不同的领域和数据特征，证明了ARISE的通用性和有效性。实验结果表明，ARISE能够有效地利用LLM的语义信息，提高分类数据聚类的准确性。

🎯 应用场景

ARISE可广泛应用于医疗、市场营销、生物信息学等领域，例如，在医疗领域，可以利用患者的病史、症状等分类数据进行聚类，发现具有相似疾病特征的患者群体；在市场营销领域，可以对客户的购买行为、偏好等数据进行聚类，实现精准营销；在生物信息学领域，可以对基因表达数据进行聚类，发现具有相似生物学功能的基因。

📄 摘要（原文）

Categorical data are prevalent in domains such as healthcare, marketing, and bioinformatics, where clustering serves as a fundamental tool for pattern discovery. A core challenge in categorical data clustering lies in measuring similarity among attribute values that lack inherent ordering or distance. Without appropriate similarity measures, values are often treated as equidistant, creating a semantic gap that obscures latent structures and degrades clustering quality. Although existing methods infer value relationships from within-dataset co-occurrence patterns, such inference becomes unreliable when samples are limited, leaving the semantic context of the data underexplored. To bridge this gap, we present ARISE (Attention-weighted Representation with Integrated Semantic Embeddings), which draws on external semantic knowledge from Large Language Models (LLMs) to construct semantic-aware representations that complement the metric space of categorical data for accurate clustering. That is, LLM is adopted to describe attribute values for representation enhancement, and the LLM-enhanced embeddings are combined with the original data to explore semantically prominent clusters. Experiments on eight benchmark datasets demonstrate consistent improvements over seven representative counterparts, with gains of 19-27%. Code is available atthis https URL

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理