Multimodal Variational Autoencoder: a Barycentric View
作者: Peijie Qiu, Wenhui Zhu, Sayantan Kumar, Xiwen Chen, Xiaotong Sun, Jin Yang, Abolfazl Razi, Yalin Wang, Aristeidis Sotiras
分类: cs.LG, cs.CV, cs.IT
发布日期: 2024-12-29
备注: AAAI 2025
💡 一句话要点
提出基于重心视角的多模态变分自编码器,提升多模态表征学习效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 变分自编码器 Wasserstein重心 模态融合 表征学习
📋 核心要点
- 现有方法在多模态VAE中主要采用专家模型(PoE/MoE),缺乏对模态间关系几何结构的有效建模。
- 论文提出基于重心的多模态VAE框架,通过Wasserstein重心更好地保留单模态分布的几何结构。
- 实验表明,该方法在多个多模态基准测试中表现出优异性能,验证了其有效性。
📝 摘要(中文)
现实世界中存在多种信号模态,如视觉和声音。近年来,人们对学习生成模型,特别是变分自编码器(VAE),以进行多模态表征学习(尤其是在模态缺失的情况下)越来越感兴趣。这些模型的主要目标是学习一种模态不变和模态特定的表征,以表征跨多种模态的信息。以往的多模态VAE尝试主要通过专家视角来实现,使用专家乘积(PoE)、专家混合(MoE)或两者的组合来聚合单模态推断分布。本文从重心的角度提供了一种替代的通用和理论化的多模态VAE公式。我们首先证明PoE和MoE是重心的特定实例,通过最小化到单模态推断分布的非对称加权KL散度推导而来。我们提出的新公式通过考虑不同类型的散度,将这两种重心扩展到更灵活的选择。特别是,我们探索了由2-Wasserstein距离定义的Wasserstein重心,与KL散度相比,它通过捕获模态特定和模态不变的表征,更好地保留了单模态分布的几何结构。在三个多模态基准上的实证研究证明了该方法的有效性。
🔬 方法详解
问题定义:多模态表征学习旨在从多种模态的数据中学习到共享和独立的表征。现有的多模态VAE方法,如PoE和MoE,主要依赖于KL散度来聚合不同模态的信息,这可能导致模糊的表征,并且无法很好地保留原始模态的几何结构。尤其是在模态缺失的情况下,如何有效地融合不同模态的信息是一个挑战。
核心思路:论文的核心思路是将多模态VAE的推断过程视为寻找一个重心的问题。不同于以往方法使用KL散度定义的重心(对应于PoE和MoE),论文提出使用Wasserstein距离定义的Wasserstein重心。Wasserstein距离能够更好地捕捉概率分布的几何结构,从而更好地保留模态特定和模态不变的表征。
技术框架:该方法基于VAE框架,针对每种模态都有一个编码器和一个解码器。关键在于推断阶段,不是直接使用PoE或MoE,而是计算一个Wasserstein重心作为联合后验分布。具体来说,给定来自不同模态的编码器输出,通过求解一个优化问题来找到Wasserstein重心,然后使用这个重心作为联合后验分布进行解码。
关键创新:最重要的技术创新点在于使用Wasserstein重心来融合多模态信息。与基于KL散度的PoE和MoE相比,Wasserstein重心能够更好地保留原始模态的几何结构,从而学习到更清晰、更具区分性的表征。这使得模型能够更好地处理模态缺失的情况,并且能够学习到模态不变和模态特定的信息。
关键设计:关键设计包括:1) 使用2-Wasserstein距离来定义重心;2) 使用Sinkhorn算法来近似计算Wasserstein距离,使其在计算上可行;3) 设计合适的损失函数,包括重构损失和正则化项,以保证学习到的表征具有良好的性质。具体的网络结构和参数设置根据不同的数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在三个多模态基准数据集上均取得了显著的性能提升。例如,在音频-视觉数据集上,该方法在重构质量和生成样本的多样性方面均优于现有的PoE和MoE方法。特别是在模态缺失的情况下,该方法的性能提升更为明显,验证了Wasserstein重心在保留模态信息方面的优势。
🎯 应用场景
该研究成果可应用于多模态数据融合、跨模态检索、多模态数据生成等领域。例如,在医疗诊断中,可以融合患者的影像数据、基因数据和临床数据,以提高诊断的准确性。在自动驾驶中,可以融合视觉、激光雷达和雷达数据,以提高环境感知的可靠性。该方法在模态缺失场景下具有优势,具有重要的实际应用价值。
📄 摘要(原文)
Multiple signal modalities, such as vision and sounds, are naturally present in real-world phenomena. Recently, there has been growing interest in learning generative models, in particular variational autoencoder (VAE), to for multimodal representation learning especially in the case of missing modalities. The primary goal of these models is to learn a modality-invariant and modality-specific representation that characterizes information across multiple modalities. Previous attempts at multimodal VAEs approach this mainly through the lens of experts, aggregating unimodal inference distributions with a product of experts (PoE), a mixture of experts (MoE), or a combination of both. In this paper, we provide an alternative generic and theoretical formulation of multimodal VAE through the lens of barycenter. We first show that PoE and MoE are specific instances of barycenters, derived by minimizing the asymmetric weighted KL divergence to unimodal inference distributions. Our novel formulation extends these two barycenters to a more flexible choice by considering different types of divergences. In particular, we explore the Wasserstein barycenter defined by the 2-Wasserstein distance, which better preserves the geometry of unimodal distributions by capturing both modality-specific and modality-invariant representations compared to KL divergence. Empirical studies on three multimodal benchmarks demonstrated the effectiveness of the proposed method.