AGSP-DSA: An Adaptive Graph Signal Processing Framework for Robust Multimodal Fusion with Dynamic Semantic Alignment

📄 arXiv: 2601.18589v1 📥 PDF

作者: KV Karthikeya, Ashok Kumar Das, Shantanu Pal, Vivekananda Bhat K, Arun Sekar Rajasekaran

分类: cs.CV, cs.MM

发布日期: 2026-01-26


💡 一句话要点

提出AGSP-DSA框架,通过动态语义对齐实现鲁棒的多模态数据融合

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 图信号处理 动态语义对齐 图卷积网络 情感分析

📋 核心要点

  1. 现有方法在多模态融合中难以有效处理异构数据和模态间的复杂关系,导致性能瓶颈。
  2. AGSP-DSA通过双图结构学习模内和模间关系,并利用谱图滤波增强信息信号,实现动态语义对齐。
  3. 实验表明,AGSP-DSA在多个数据集上优于现有方法,尤其在缺失模态场景下表现出良好的鲁棒性。

📝 摘要(中文)

本文提出了一种自适应图信号处理与动态语义对齐(AGSP-DSA)框架,用于对包括文本、音频和图像在内的异构源进行鲁棒的多模态数据融合。该方法使用双图构建来学习模内和模间关系,利用谱图滤波来增强信息信号,并通过多尺度图卷积网络(GCN)进行有效的节点嵌入。语义感知的注意力机制允许每个模态根据上下文相关性动态地贡献于上下文。在CMU-MOSEI、AVE和MM-IMDB三个基准数据集上的实验结果表明,AGSP-DSA达到了最先进的性能。具体而言,在CMU-MOSEI上实现了95.3%的准确率、0.936的F1分数和0.924的mAP,相比MM-GNN在准确率上提高了2.6%。在AVE上获得了93.4%的准确率和0.911的F1分数,在MM-IMDB上获得了91.8%的准确率和0.886的F1分数,证明了其在缺失模态设置下的良好泛化性和鲁棒性。这些发现验证了AGSP-DSA在促进情感分析、事件识别和多媒体分类中的多模态学习方面的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态数据融合中,如何有效利用异构数据源(文本、音频、图像)之间的关联性,并提升模型在数据缺失情况下的鲁棒性。现有方法难以充分捕捉模态间的复杂语义关系,且在模态缺失时性能显著下降。

核心思路:论文的核心思路是构建一个自适应的图信号处理框架,通过双图结构同时建模模内和模间关系,并利用谱图滤波增强关键信息。此外,引入动态语义对齐机制,使模型能够根据上下文自适应地调整不同模态的贡献权重,从而提升融合效果和鲁棒性。

技术框架:AGSP-DSA框架主要包含以下几个模块:1) 双图构建:分别构建模内图和模间图,用于捕捉各自的关联性。2) 谱图滤波:利用图信号处理技术,对图上的信号进行滤波,增强信息量大的信号,抑制噪声。3) 多尺度GCN:使用多尺度图卷积网络进行节点嵌入,提取不同尺度的特征。4) 语义感知注意力:引入注意力机制,动态调整不同模态的贡献权重。

关键创新:该方法的主要创新在于:1) 双图结构:同时建模模内和模间关系,更全面地捕捉数据关联性。2) 动态语义对齐:通过注意力机制,自适应地调整不同模态的贡献,提升融合效果和鲁棒性。3) 自适应图信号处理:利用谱图滤波增强信息信号,提高模型对噪声的抵抗能力。

关键设计:在双图构建中,模内图基于模态内的相似度构建,模间图基于模态间的相关性构建。谱图滤波器的设计需要考虑频率响应特性,以选择性地增强或抑制特定频率的信号。注意力机制的设计需要保证能够有效地捕捉模态间的依赖关系,并动态调整权重。损失函数的设计需要综合考虑分类准确率和鲁棒性。

📊 实验亮点

AGSP-DSA在CMU-MOSEI数据集上取得了95.3%的准确率、0.936的F1分数和0.924的mAP,相比MM-GNN在准确率上提高了2.6%。在AVE和MM-IMDB数据集上也取得了显著的性能提升,并且在缺失模态的实验设置下表现出良好的鲁棒性,验证了该方法的有效性。

🎯 应用场景

AGSP-DSA框架可广泛应用于情感分析、事件识别、多媒体分类等领域。该方法能够有效融合来自不同模态的信息,提升模型性能和鲁棒性,尤其在数据不完整或存在噪声的情况下。未来可应用于智能客服、视频内容理解、社交媒体分析等场景,具有重要的实际应用价值。

📄 摘要(原文)

In this paper, we introduce an Adaptive Graph Signal Processing with Dynamic Semantic Alignment (AGSP DSA) framework to perform robust multimodal data fusion over heterogeneous sources, including text, audio, and images. The requested approach uses a dual-graph construction to learn both intra-modal and inter-modal relations, spectral graph filtering to boost the informative signals, and effective node embedding with Multi-scale Graph Convolutional Networks (GCNs). Semantic aware attention mechanism: each modality may dynamically contribute to the context with respect to contextual relevance. The experimental outcomes on three benchmark datasets, including CMU-MOSEI, AVE, and MM-IMDB, show that AGSP-DSA performs as the state of the art. More precisely, it achieves 95.3% accuracy, 0.936 F1-score, and 0.924 mAP on CMU-MOSEI, improving MM-GNN by 2.6 percent in accuracy. It gets 93.4% accuracy and 0.911 F1-score on AVE and 91.8% accuracy and 0.886 F1-score on MM-IMDB, which demonstrate good generalization and robustness in the missing modality setting. These findings verify the efficiency of AGSP-DSA in promoting multimodal learning in sentiment analysis, event recognition and multimedia classification.