Agent-Centric Personalized Multiple Clustering with Multi-Modal LLMs

📄 arXiv: 2503.22241v3 📥 PDF

作者: Ziye Chen, Yiqun Duan, Riheng Zhu, Zhenbang Sun, Mingming Gong

分类: cs.AI

发布日期: 2025-03-28 (更新: 2025-05-28)


💡 一句话要点

提出基于多模态LLM的Agent中心个性化多重聚类框架,提升用户兴趣聚类效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化聚类 多模态LLM Agent 关系图 用户兴趣 聚类搜索 深度学习

📋 核心要点

  1. 现有方法依赖CLIP嵌入,缺乏对用户兴趣的深度上下文理解,导致聚类效果不佳。
  2. 利用多模态LLM作为Agent,在关系图中搜索聚类,更符合用户定义的标准。
  3. 通过MLLM提取用户兴趣偏差嵌入构建关系图,减少Agent遍历路径,提升效率,实验结果显著优于SOTA。

📝 摘要(中文)

个性化多重聚类旨在根据不同的用户特定方面生成数据集的多样化分区,而非单一聚类。为了适应不同的用户偏好,它最近引起了研究兴趣。目前的方法主要使用CLIP嵌入和代理学习来提取偏向于用户聚类偏好的表示。然而,CLIP主要关注粗略的图像-文本对齐,缺乏对用户兴趣的深度上下文理解。为了克服这些限制,我们提出了一种基于Agent中心的个性化聚类框架,该框架利用多模态大型语言模型(MLLM)作为Agent,全面遍历关系图,以根据用户兴趣搜索聚类。由于MLLM的先进推理机制,获得的聚类比基于CLIP的表示获得的聚类更符合用户定义的标准。为了减少计算开销,我们通过使用MLLM提取的用户兴趣偏差嵌入来构建关系图,从而缩短了Agent的遍历路径。基于嵌入相似性,可以过滤掉大量弱连接的边,从而促进Agent的有效遍历搜索。实验结果表明,所提出的方法在Card Order和Card Suits基准测试中分别实现了0.9667和0.9481的NMI分数,大大提高了SOTA模型超过140%。

🔬 方法详解

问题定义:个性化多重聚类旨在根据用户特定的偏好对数据进行聚类,现有方法如基于CLIP的方法,无法充分理解用户兴趣的深层语义,导致聚类结果与用户期望不符,且计算效率较低。

核心思路:利用多模态大型语言模型(MLLM)的强大推理能力,将其作为Agent,在构建的关系图中进行遍历搜索,寻找符合用户兴趣的聚类。通过MLLM对用户兴趣的深度理解,能够更准确地捕捉用户意图,从而获得更符合用户偏好的聚类结果。

技术框架:该框架主要包含以下几个阶段:1) 用户兴趣表示:使用MLLM提取用户兴趣的嵌入表示。2) 关系图构建:基于用户兴趣嵌入,构建数据集的关系图,节点表示数据点,边表示数据点之间的相似度。3) Agent遍历搜索:将MLLM作为Agent,在关系图中进行遍历搜索,根据用户兴趣寻找聚类。4) 聚类结果优化:对Agent搜索到的聚类结果进行优化,例如去除噪声点,合并相似聚类等。

关键创新:该方法的核心创新在于利用多模态LLM作为Agent,进行个性化聚类。与传统的基于CLIP等浅层模型的聚类方法相比,MLLM能够更深入地理解用户兴趣,从而获得更符合用户偏好的聚类结果。此外,通过构建关系图并进行遍历搜索,可以有效地减少计算开销。

关键设计:关系图的构建至关重要,边的权重可以根据用户兴趣嵌入的相似度来确定,相似度越高,权重越大。Agent的遍历策略可以采用深度优先搜索或广度优先搜索等方法。损失函数的设计需要考虑聚类结果的内聚性和分离性,可以使用例如DBI指数等指标来评估聚类效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Card Order和Card Suits基准测试中分别取得了0.9667和0.9481的NMI分数,相比于SOTA模型,性能提升超过140%。这表明该方法能够有效地捕捉用户兴趣,并生成高质量的个性化聚类结果。

🎯 应用场景

该研究成果可应用于推荐系统、用户画像、社交网络分析等领域。例如,在电商推荐中,可以根据用户的购买历史和浏览行为,利用该方法对商品进行个性化聚类,从而为用户推荐更符合其兴趣的商品。在社交网络分析中,可以根据用户的社交关系和兴趣爱好,对用户进行个性化聚类,从而发现具有相似兴趣的社群。

📄 摘要(原文)

Personalized multiple clustering aims to generate diverse partitions of a dataset based on different user-specific aspects, rather than a single clustering. It has recently drawn research interest for accommodating varying user preferences. Recent approaches primarily use CLIP embeddings with proxy learning to extract representations biased toward user clustering preferences. However, CLIP primarily focuses on coarse image-text alignment, lacking a deep contextual understanding of user interests. To overcome these limitations, we propose an agent-centric personalized clustering framework that leverages multi-modal large language models (MLLMs) as agents to comprehensively traverse a relational graph to search for clusters based on user interests. Due to the advanced reasoning mechanism of MLLMs, the obtained clusters align more closely with user-defined criteria than those obtained from CLIP-based representations. To reduce computational overhead, we shorten the agents' traversal path by constructing a relational graph using user-interest-biased embeddings extracted by MLLMs. A large number of weakly connected edges can be filtered out based on embedding similarity, facilitating an efficient traversal search for agents. Experimental results show that the proposed method achieves NMI scores of 0.9667 and 0.9481 on the Card Order and Card Suits benchmarks, respectively, largely improving the SOTA model by over 140%.