GOMA: Toward Structure-Driven Multimodal Alignment from a Graph Signal Smoothing Perspective
作者: Xu Wang, Xunkai Li, Yinlin Zhu, Rong-Hua Li, Guoren Wang
分类: cs.LG, cs.CV
发布日期: 2026-05-15
💡 一句话要点
GOMA:提出一种图优化的多模态对齐框架,利用图结构提升冻结多模态嵌入的检索性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态对齐 图神经网络 图信号处理 多模态属性图 图像文本检索
📋 核心要点
- 现有方法主要基于孤立的图像-文本对学习多模态对齐,忽略了实体间的关系上下文,导致性能受限。
- GOMA将冻结的多模态嵌入视为图信号,通过学习模态感知的传播算子和自适应平滑轨迹来优化对齐。
- 实验表明,GOMA在多个MAG基准测试中取得了领先的检索性能,并展现出比其他图方法更强的稳定性。
📝 摘要(中文)
多模态对齐通常通过CLIP风格的双编码器从孤立的图像-文本对中学习,很大程度上忽略了实体之间的关系上下文。多模态属性图(MAGs)提供了一个自然的设置来细化冻结的视觉-语言嵌入,其中节点携带多模态属性,边编码语料库结构。这种细化具有挑战性:视觉、文本和跨模态关系通常会诱导不同的邻域几何结构,而无限制的图传播会迅速过度平滑检索表示。因此,有效利用图上下文需要同时打破特定模态的拓扑障碍,控制平滑机制,并在语义边界崩溃之前保留信息丰富的平滑。我们提出了图优化多模态对齐(GOMA),这是一个结构驱动的后对齐框架,它将冻结的多模态嵌入视为图信号,并通过统一的检索导向设计来满足这些要求。GOMA解耦了三个关键设计选择:消息应该流向何处,多模态证据应该如何传播,以及应该保留哪个平滑深度。具体来说,它学习模态感知的传播算子,执行有限步数的耦合平滑,而没有对角跨模态捷径,并自适应地读出节点特定的平滑轨迹,以在崩溃之前保留有用的平滑。所有实验都遵循转导MAG检索协议,其中图仅用作未标记的上下文,并且删除了对角自配对边。在七个MAG基准测试中,GOMA实现了最先进或并列最先进的检索,并且比最强的图竞争对手保持了显著的稳定性,这表明MAG结构可以作为冻结多模态嵌入的有效后编码器。
🔬 方法详解
问题定义:现有的多模态对齐方法,如CLIP,主要依赖于图像-文本对的独立学习,忽略了数据集中实体之间的关系结构。这种忽略导致模型无法充分利用上下文信息,限制了其在复杂场景下的检索性能。此外,直接在多模态图上进行图神经网络的传播容易导致过平滑问题,使得节点表示趋同,降低区分度。
核心思路:GOMA的核心思路是将预训练的冻结多模态嵌入视为图信号,并利用图结构来优化这些嵌入,从而提升检索性能。通过学习模态感知的传播算子,GOMA能够打破模态特定的拓扑障碍,使得不同模态的信息能够有效融合。同时,通过控制平滑的深度和自适应地选择平滑轨迹,GOMA能够避免过平滑问题,保留有用的语义信息。
技术框架:GOMA的整体框架包括以下几个主要步骤:1) 使用预训练的视觉和语言编码器提取节点的多模态嵌入;2) 构建多模态属性图(MAG),其中节点表示实体,边表示实体之间的关系;3) 学习模态感知的传播算子,用于在图上传播信息;4) 执行有限步数的耦合平滑,避免过平滑;5) 自适应地读出节点特定的平滑轨迹,选择最佳的平滑深度;6) 使用优化后的嵌入进行检索任务。
关键创新:GOMA的关键创新在于其结构驱动的后对齐方法,它将冻结的多模态嵌入视为图信号,并利用图结构来优化这些嵌入。与传统的图神经网络方法不同,GOMA通过解耦消息传递、模态传播和平滑深度这三个关键设计选择,实现了更有效的图上下文利用。此外,GOMA的模态感知传播算子和自适应平滑轨迹选择机制能够更好地处理多模态数据的异构性和过平滑问题。
关键设计:GOMA的关键设计包括:1) 模态感知的传播算子,通过学习不同的权重来控制不同模态信息的传播;2) 有限步数的耦合平滑,避免过度平滑;3) 自适应的平滑轨迹选择,根据节点的特性选择最佳的平滑深度。损失函数主要面向检索任务设计,例如对比学习损失,以最大化正样本对的相似度,最小化负样本对的相似度。网络结构方面,GOMA主要依赖于图神经网络,例如图卷积网络(GCN)或图注意力网络(GAT),用于学习传播算子。
🖼️ 关键图片
📊 实验亮点
GOMA在七个多模态属性图(MAG)基准测试中取得了最先进或并列最先进的检索性能,证明了其有效性。与最强的图竞争对手相比,GOMA表现出更强的稳定性,表明其能够更好地处理过平滑问题。实验结果表明,MAG结构可以作为冻结多模态嵌入的有效后编码器,显著提升检索性能。
🎯 应用场景
GOMA具有广泛的应用前景,例如图像-文本检索、视频理解、知识图谱补全等。通过利用实体之间的关系结构,GOMA能够提升多模态数据的理解和推理能力,从而在智能搜索、推荐系统、内容创作等领域发挥重要作用。未来,GOMA可以进一步扩展到其他模态,例如音频、3D模型等,以支持更复杂的多模态应用。
📄 摘要(原文)
Multimodal alignment is commonly learned from isolated image-text pairs via CLIP-style dual encoders, leaving the relational context among entities largely unused. Multimodal attributed graphs (MAGs), where nodes carry multimodal attributes and edges encode corpus structure, provide a natural setting for refining frozen vision-language embeddings. This refinement is challenging: visual, textual, and cross-modal relations often induce different neighborhood geometries, while unrestricted graph propagation can quickly over-smooth retrieval representations. Effectively leveraging graph context therefore requires simultaneously breaking modality-specific topological barriers, controlling the smoothing regime, and preserving informative smoothing before semantic boundaries collapse. We propose Graph-Optimized Multimodal Alignment (GOMA), a structure-driven post-alignment framework that views frozen multimodal embeddings as graph signals and addresses these requirements through a unified retrieval-oriented design. GOMA decouples three key design choices: where messages should flow, how multimodal evidence should propagate, and which smoothing depth should be retained. Concretely, it learns modality-aware propagation operators, performs finite-step coupled smoothing without diagonal cross-modal shortcuts, and adaptively reads out node-specific smoothing trajectories to preserve useful smoothing before collapse. All experiments follow a transductive MAG retrieval protocol where the graph serves only as unlabeled context and diagonal self-pair edges are removed. On seven MAG benchmarks, GOMA achieves state-of-the-art or tied state-of-the-art retrieval and remains substantially more stable than the strongest graph competitor, demonstrating that MAG structure can serve as an effective post-encoder for frozen multimodal embeddings.