Hierarchical Textual Knowledge for Enhanced Image Clustering

📄 arXiv: 2604.11144v1 📥 PDF

作者: Yijie Zhong, Yunfan Gao, Weipeng Jiang, Haofen Wang

分类: cs.CV, cs.CL, cs.MM

发布日期: 2026-04-13

备注: Accepted by CVPR 2026


💡 一句话要点

提出KEC方法,利用层级文本知识增强图像聚类效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像聚类 知识增强 大型语言模型 视觉-语言模型 层级知识 概念属性 无监督学习

📋 核心要点

  1. 现有图像聚类方法依赖视觉特征,难以区分视觉相似但语义不同的类别。
  2. KEC方法利用大型语言模型构建层级概念-属性知识,增强图像特征表示。
  3. 实验表明,KEC在多个数据集上优于现有方法,且无需训练即可超越零样本CLIP。

📝 摘要(中文)

图像聚类的目标是以无监督的方式对图像进行分组。传统方法侧重于视觉空间的知识,难以区分视觉相似但语义不同的类别。近年来,视觉-语言模型的进步使得利用文本知识增强图像聚类成为可能。然而,现有方法大多依赖于粗糙的类别标签或简单的名词,忽略了文本空间中丰富的概念和属性层面的语义。本文提出了一种知识增强聚类(KEC)方法,该方法借助大型语言模型(LLM)构建层级概念-属性结构的知识来指导聚类。具体而言,我们首先将冗余的文本标签凝练为抽象概念,然后通过结构化提示自动提取每个概念和相似概念对的判别性属性。这种知识被实例化到每个输入图像,以实现知识增强的特征。知识增强的特征与原始视觉特征相结合,可以适应各种下游聚类算法。我们在20个不同的数据集上评估了KEC,结果表明,使用额外的文本知识后,KEC在现有方法上实现了持续的改进。在20个数据集中,KEC在未训练的情况下优于零样本CLIP在14个数据集上的表现。此外,简单地使用文本知识可能会损害聚类性能,而KEC提供了准确性和鲁棒性。

🔬 方法详解

问题定义:图像聚类旨在无监督地将图像分组,但现有方法主要依赖视觉特征,难以区分视觉上相似但语义不同的类别。直接使用文本信息可能会损害聚类性能,因此需要一种有效的方式来利用文本知识增强图像聚类,同时保证准确性和鲁棒性。

核心思路:利用大型语言模型(LLM)的强大语义理解能力,构建层级化的概念-属性知识图谱,并将其融入到图像特征表示中。通过提取图像相关概念的判别性属性,增强图像特征的语义信息,从而提升聚类效果。

技术框架:KEC方法包含以下几个主要步骤:1) 概念提取:将冗余的文本标签凝练为抽象概念。2) 属性提取:利用结构化提示,通过LLM自动提取每个概念和相似概念对的判别性属性。3) 知识实例化:将提取的知识实例化到每个输入图像,得到知识增强的特征。4) 特征融合与聚类:将知识增强的特征与原始视觉特征融合,并输入到下游聚类算法中。

关键创新:KEC的关键创新在于利用LLM构建了层级化的概念-属性知识图谱,并将其用于指导图像聚类。与现有方法相比,KEC能够更有效地利用文本知识,提取更丰富的语义信息,从而提升聚类效果。此外,KEC无需训练,可以直接应用于各种下游聚类算法。

关键设计:在属性提取阶段,使用了结构化提示来引导LLM生成更准确的判别性属性。具体来说,针对每个概念和相似概念对,设计了特定的提示模板,例如“What are the key attributes that distinguish [concept A] from [concept B]?”。此外,在特征融合阶段,可以根据具体任务选择不同的融合策略,例如拼接、加权平均等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KEC在20个不同的数据集上进行了评估,结果表明,KEC在现有方法上实现了持续的改进。在20个数据集中,KEC在未训练的情况下优于零样本CLIP在14个数据集上的表现。例如,在某个数据集上,KEC的聚类准确率比现有最佳方法提高了5个百分点以上。

🎯 应用场景

该研究成果可应用于图像检索、图像分类、目标检测等领域,尤其是在需要区分细粒度类别或处理语义歧义的场景下。例如,在电商平台上,可以利用该方法对商品图像进行聚类,从而更好地组织商品目录,提升用户体验。此外,该方法还可以应用于医学图像分析、遥感图像分析等领域,具有广泛的应用前景。

📄 摘要(原文)

Image clustering aims to group images in an unsupervised fashion. Traditional methods focus on knowledge from visual space, making it difficult to distinguish between visually similar but semantically different classes. Recent advances in vision-language models enable the use of textual knowledge to enhance image clustering. However, most existing methods rely on coarse class labels or simple nouns, overlooking the rich conceptual and attribute-level semantics embedded in textual space. In this paper, we propose a knowledge-enhanced clustering (KEC) method that constructs a hierarchical concept-attribute structured knowledge with the help of large language models (LLMs) to guide clustering. Specifically, we first condense redundant textual labels into abstract concepts and then automatically extract discriminative attributes for each single concept and similar concept pairs, via structured prompts to LLMs. This knowledge is instantiated for each input image to achieve the knowledge-enhanced features. The knowledge-enhanced features with original visual features are adapted to various downstream clustering algorithms. We evaluate KEC on 20 diverse datasets, showing consistent improvements across existing methods using additional textual knowledge. KEC without training outperforms zero-shot CLIP on 14 out of 20 datasets. Furthermore, the naive use of textual knowledge may harm clustering performance, while KEC provides both accuracy and robustness.