Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso

📄 arXiv: 2604.03953 📥 PDF

作者: Fei Wang, Yutong Zhang, Xiong Wang

分类: cs.CV, cs.LG

发布日期: 2026-04-07


💡 一句话要点

提出CM-GLasso,通过跨模态图 Lasso 解耦共享和特定拓扑结构,提升多模态表征学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图 Lasso 跨模态融合 结构学习 注意力机制 语义分割 生成分类

📋 核心要点

  1. 现有方法难以有效处理视觉-语言领域中高维噪声、模态不对齐以及共享与类别特定拓扑结构混淆的问题。
  2. CM-GLasso通过文本-可视化策略对齐多模态特征,并利用交叉注意力蒸馏提取空间感知的跨模态先验。
  3. 实验结果表明,CM-GLasso在生成分类和密集语义分割任务中取得了显著的性能提升,达到了新的state-of-the-art。

📝 摘要(中文)

学习可解释的多模态表征本质上依赖于揭示异构特征之间的条件依赖关系。然而,诸如图形Lasso (GLasso)等稀疏图估计技术在视觉-语言领域的应用受到高维噪声、模态不对齐以及共享与类别特定拓扑结构混淆的严重阻碍。本文提出了跨模态图形Lasso (CM-GLasso),克服了这些根本限制。通过将新颖的文本-可视化策略与统一的视觉-语言编码器相结合,我们严格地将多模态特征对齐到共享潜在空间中。我们引入了一种交叉注意力蒸馏机制,将高维patches提炼成显式的语义节点,自然地提取空间感知的跨模态先验。此外,我们将定制的GLasso估计和公共-特定结构学习(CSSL)统一到一个联合目标中,并通过交替方向乘子法(ADMM)进行优化。这种公式保证了不变和类别特定的精度矩阵的同步解耦,而不会产生多步误差累积。在涵盖自然和医学领域的八个基准上的大量实验表明,CM-GLasso在生成分类和密集语义分割任务中建立了新的最先进水平。

🔬 方法详解

问题定义:现有的多模态表征学习方法,特别是基于Graphical Lasso (GLasso)的方法,在处理视觉-语言数据时面临挑战。这些挑战包括:高维噪声干扰、不同模态特征的不对齐,以及难以区分共享的和类别特定的拓扑结构。这些问题限制了模型的可解释性和泛化能力。

核心思路:CM-GLasso的核心思路是通过跨模态信息融合和结构学习,解耦共享和特定模态的拓扑结构。它利用文本-可视化策略将多模态特征对齐到共享潜在空间,并引入交叉注意力蒸馏机制提取跨模态先验。通过联合优化GLasso估计和Common-Specific Structure Learning (CSSL),实现精度矩阵的同步解耦。

技术框架:CM-GLasso的整体框架包含以下几个主要模块:1) 统一的视觉-语言编码器,用于将文本和图像特征编码到共享潜在空间;2) 文本-可视化策略,用于对齐不同模态的特征;3) 交叉注意力蒸馏机制,用于提取空间感知的跨模态先验;4) 联合优化模块,通过ADMM算法同时优化GLasso估计和CSSL目标。

关键创新:CM-GLasso的关键创新在于:1) 提出了跨模态图 Lasso (CM-GLasso)框架,能够同时解耦共享和类别特定的精度矩阵,避免了多步误差累积;2) 引入了交叉注意力蒸馏机制,将高维patches提炼成显式的语义节点,从而提取空间感知的跨模态先验;3) 将定制的GLasso估计和公共-特定结构学习(CSSL)统一到一个联合目标中,并通过ADMM进行优化。

关键设计:在文本-可视化策略中,使用了特定的损失函数来对齐不同模态的特征。交叉注意力蒸馏机制利用Transformer结构提取跨模态关系。联合优化模块中的GLasso估计和CSSL目标通过ADMM算法进行迭代优化,涉及对精度矩阵的更新和拉格朗日乘子的调整。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CM-GLasso在八个基准数据集上进行了广泛的实验,涵盖自然图像和医学图像领域。实验结果表明,CM-GLasso在生成分类和密集语义分割任务中均取得了显著的性能提升,超越了现有的state-of-the-art方法。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

CM-GLasso具有广泛的应用前景,包括但不限于:图像分类、语义分割、视觉问答、图像描述等。特别是在医学图像分析领域,例如疾病诊断和病灶分割,该方法能够有效利用多模态医学数据(如CT图像和文本报告),提高诊断准确率和效率。此外,该方法还可以应用于机器人视觉和自动驾驶等领域,提升感知系统的鲁棒性和可解释性。

📄 摘要(原文)

Learning interpretable multimodal representations inherently relies on uncovering the conditional dependencies between heterogeneous features. However, sparse graph estimation techniques, such as Graphical Lasso (GLasso), to visual-linguistic domains is severely bottlenecked by high-dimensional noise, modality misalignment, and the confounding of shared versus category-specific topologies. In this paper, we propose Cross-Modal Graphical Lasso (CM-GLasso) that overcomes these fundamental limitations. By coupling a novel text-visualization strategy with a unified vision-language encoder, we strictly align multimodal features into a shared latent space. We introduce a cross-attention distillation mechanism that condenses high-dimensional patches into explicit semantic nodes, naturally extracting spatial-aware cross-modal priors. Furthermore, we unify tailored GLasso estimation and Common-Specific Structure Learning (CSSL) into a joint objective optimized via the Alternating Direction Method of Multiplier (ADMM). This formulation guarantees the simultaneous disentanglement of invariant and class-specific precision matrices without multi-step error accumulation. Extensive experiments across eight benchmarks covering both natural and medical domains demonstrate that CM-GLasso establishes a new state-of-the-art in generative classification and dense semantic segmentation tasks.