Disentangled Representation Learning with the Gromov-Monge Gap
作者: Théo Uscidda, Luca Eyring, Karsten Roth, Fabian Theis, Zeynep Akata, Marco Cuturi
分类: cs.LG, cs.CV, stat.ML
发布日期: 2024-07-10 (更新: 2025-08-19)
备注: ICLR 2025
💡 一句话要点
提出基于Gromov-Monge Gap的解耦表示学习方法,提升几何特征保持能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 解耦表示学习 最优传输 Gromov-Monge Gap 几何特征保持 无监督学习
📋 核心要点
- 现有解耦表示学习方法难以在匹配先验的同时保持数据的几何特征,导致表示扭曲。
- 论文提出基于Gromov-Monge Gap的正则化方法,通过最小化几何扭曲来学习解耦表示。
- 实验表明,该方法在解耦任务上优于其他利用几何信息的方法,并在多个标准数据集上取得了更好的性能。
📝 摘要(中文)
本文针对无标签数据中的解耦表示学习这一基础难题,提出了一种基于二次最优传输的新方法。该方法利用Gromov-Monge映射,在将一个分布传输到另一个分布时,最小化预定义几何特征的扭曲,尽可能地保留这些特征。为了计算这种映射,我们提出了Gromov-Monge-Gap (GMG)正则化项,用于量化映射在移动参考分布时几何扭曲的程度。实验结果表明,在四个标准基准测试中,我们的方法在解耦方面优于其他利用几何考虑的方法。
🔬 方法详解
问题定义:论文旨在解决无监督解耦表示学习中,如何更好地在匹配先验分布的同时,保持数据固有的几何结构的问题。现有方法通常难以兼顾这两点,导致学习到的解耦表示在几何上发生扭曲,影响下游任务的性能。
核心思路:论文的核心思路是利用最优传输理论中的Gromov-Monge映射,寻找一个能够将数据分布映射到先验分布,并且最小化几何扭曲的变换。通过惩罚这种扭曲,可以鼓励模型学习到既解耦又保持几何结构的表示。
技术框架:整体框架包含一个编码器,将输入数据映射到潜在空间,然后利用Gromov-Monge Gap (GMG) 作为正则化项,约束潜在空间的分布。GMG衡量了数据分布到先验分布的映射过程中,几何结构被扭曲的程度。优化目标是最小化重构误差和GMG正则化项的加权和。
关键创新:关键创新在于提出了Gromov-Monge Gap (GMG) 正则化项,它能够显式地衡量数据分布到先验分布映射过程中的几何扭曲程度。与现有方法相比,GMG能够更直接地控制几何结构的保持,从而学习到更优的解耦表示。
关键设计:GMG的计算涉及到二次最优传输问题,需要计算两个分布之间的Gromov-Wasserstein距离。论文采用Sinkhorn算法来近似计算Gromov-Wasserstein距离,并将其作为GMG的损失函数。此外,论文还设计了合适的权重参数来平衡重构误差和GMG正则化项。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在四个标准解耦基准测试中均取得了优于其他几何感知方法的性能。具体而言,在某些数据集上,该方法在解耦指标上取得了显著提升,证明了GMG正则化项的有效性。实验结果还表明,该方法能够更好地保持数据的几何结构,从而提升下游任务的性能。
🎯 应用场景
该研究成果可应用于图像生成、风格迁移、数据增强等领域。通过学习解耦且保持几何结构的表示,可以更好地控制生成过程,提高生成数据的质量和多样性。此外,该方法还有助于提升模型的可解释性和鲁棒性,使其在实际应用中更具优势。
📄 摘要(原文)
Learning disentangled representations from unlabelled data is a fundamental challenge in machine learning. Solving it may unlock other problems, such as generalization, interpretability, or fairness. Although remarkably challenging to solve in theory, disentanglement is often achieved in practice through prior matching. Furthermore, recent works have shown that prior matching approaches can be enhanced by leveraging geometrical considerations, e.g., by learning representations that preserve geometric features of the data, such as distances or angles between points. However, matching the prior while preserving geometric features is challenging, as a mapping that fully preserves these features while aligning the data distribution with the prior does not exist in general. To address these challenges, we introduce a novel approach to disentangled representation learning based on quadratic optimal transport. We formulate the problem using Gromov-Monge maps that transport one distribution onto another with minimal distortion of predefined geometric features, preserving them as much as can be achieved. To compute such maps, we propose the Gromov-Monge-Gap (GMG), a regularizer quantifying whether a map moves a reference distribution with minimal geometry distortion. We demonstrate the effectiveness of our approach for disentanglement across four standard benchmarks, outperforming other methods leveraging geometric considerations.