Trusted Mamba Contrastive Network for Multi-View Clustering
作者: Jian Zhu, Xin Zou, Lei Liu, Zhangmin Huang, Ying Zhang, Chang Tang, Li-Rong Dai
分类: cs.CV
发布日期: 2024-12-21 (更新: 2025-01-07)
备注: accepted by 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP2025)
🔗 代码/项目: GITHUB
💡 一句话要点
提出可信Mamba对比网络(TMCN)用于解决多视图聚类中的不可信融合问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多视图聚类 对比学习 Mamba 可信融合 深度学习 无监督学习 表征学习
📋 核心要点
- 现有深度多视图聚类方法忽略视图中的噪声和冗余信息,导致融合过程不可信。
- 提出可信Mamba融合网络(TMFN)和平均相似度对比学习(AsCL)模块,实现更可靠的多视图融合。
- 实验结果表明,TMCN在多个数据集上取得了state-of-the-art的聚类性能,验证了其有效性。
📝 摘要(中文)
多视图聚类通过无监督方式学习一致性表示,将数据样本划分到对应类别,近年来受到越来越多的关注。然而,多视图聚类存在不可信融合问题。该问题的原因如下:1)现有方法忽略了视图中噪声或冗余信息的存在;2)深度多视图聚类中,对比学习的相似性来自同一样本而非同一簇,导致多视图融合方向错误。本文提出一种新的多视图聚类网络来解决这个问题,称为可信Mamba对比网络(TMCN)。具体来说,我们提出了一种新的可信Mamba融合网络(TMFN),通过选择机制实现多视图数据的可信融合。此外,我们使用平均相似度对比学习(AsCL)模块对齐融合表示和特定视图表示。AsCL增加了来自同一簇的视图表示的相似性,而不仅仅是来自同一样本的相似性。大量实验表明,该方法在深度多视图聚类任务中取得了最先进的结果。源代码可在https://github.com/HackerHyper/TMCN获取。
🔬 方法详解
问题定义:多视图聚类的目标是从多个不同的视角或特征集(即视图)来对数据进行聚类。现有的深度多视图聚类方法通常直接融合所有视图的信息,而忽略了不同视图可能包含噪声、冗余信息或者质量差异。这导致融合后的表示不够可靠,从而影响聚类性能。此外,传统的对比学习方法在多视图聚类中倾向于增强同一样本在不同视图中的一致性,而忽略了样本属于同一簇的可能性,导致融合方向错误。
核心思路:TMCN的核心思路是通过可信融合和簇级别的对比学习来解决多视图聚类中的不可信融合问题。首先,利用可信Mamba融合网络(TMFN)选择性地融合不同视图的信息,降低噪声和冗余信息的影响。其次,通过平均相似度对比学习(AsCL)模块,增强来自同一簇的样本在不同视图中的表示的相似性,从而引导模型学习更具区分性的聚类表示。
技术框架:TMCN的整体框架包含以下几个主要模块:1) 特征提取模块:使用深度神经网络(如Mamba)从每个视图中提取特征表示。2) 可信Mamba融合网络 (TMFN):通过选择机制,对不同视图的特征进行加权融合,得到融合表示。3) 平均相似度对比学习 (AsCL)模块:利用对比学习的目标函数,对齐融合表示和特定视图表示,增强簇内样本表示的一致性。4) 聚类模块:使用聚类算法(如k-means)对融合表示进行聚类,得到最终的聚类结果。
关键创新:TMCN的关键创新在于:1) 提出了可信Mamba融合网络(TMFN),能够选择性地融合不同视图的信息,降低噪声和冗余信息的影响,实现更可靠的融合。2) 提出了平均相似度对比学习(AsCL)模块,将对比学习的重点从同一样本转移到同一簇,从而引导模型学习更具区分性的聚类表示。3) 将Mamba架构引入多视图融合,利用其序列建模能力提升特征提取效果。
关键设计:1) TMFN中的选择机制:具体实现方式未知,但推测可能是通过注意力机制或者门控机制来对不同视图的特征进行加权。2) AsCL的损失函数:设计损失函数,鼓励来自同一簇的样本在不同视图中的表示更加相似,同时抑制来自不同簇的样本的相似性。具体形式未知。3) Mamba架构:使用Mamba作为特征提取器,具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
论文在多个公开数据集上进行了实验,包括图像数据集(如Caltech101、NUS-WIDE)和文本数据集。实验结果表明,TMCN在聚类准确率(ACC)、归一化互信息(NMI)等指标上均优于现有的state-of-the-art方法。具体的性能提升幅度未知,但摘要中明确指出达到了最先进的结果。
🎯 应用场景
该研究成果可应用于多个领域,例如图像聚类、文本聚类、生物信息学数据分析等。在这些领域中,数据通常以多视图的形式存在,例如图像可以有不同的特征描述子,文本可以有不同的语言版本。TMCN能够有效地融合这些多视图信息,提高聚类性能,从而帮助人们更好地理解和利用这些数据。
📄 摘要(原文)
Multi-view clustering can partition data samples into their categories by learning a consensus representation in an unsupervised way and has received more and more attention in recent years. However, there is an untrusted fusion problem. The reasons for this problem are as follows: 1) The current methods ignore the presence of noise or redundant information in the view; 2) The similarity of contrastive learning comes from the same sample rather than the same cluster in deep multi-view clustering. It causes multi-view fusion in the wrong direction. This paper proposes a novel multi-view clustering network to address this problem, termed as Trusted Mamba Contrastive Network (TMCN). Specifically, we present a new Trusted Mamba Fusion Network (TMFN), which achieves a trusted fusion of multi-view data through a selective mechanism. Moreover, we align the fused representation and the view-specific representation using the Average-similarity Contrastive Learning (AsCL) module. AsCL increases the similarity of view presentation from the same cluster, not merely from the same sample. Extensive experiments show that the proposed method achieves state-of-the-art results in deep multi-view clustering tasks. The source code is available at https://github.com/HackerHyper/TMCN.