Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis

📄 arXiv: 2504.11331v2 📥 PDF

作者: Hao Liu, Lijun He, Jiaxi Liang, Zhihan Ren, Haixia Bi, Fan Li

分类: cs.CL, cs.MM

发布日期: 2025-04-15 (更新: 2025-10-30)

🔗 代码/项目: GITHUB


💡 一句话要点

提出DASCO框架,利用依赖结构增强上下文范围,解决多模态情感分析中的关键挑战。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 方面级情感分析 依赖解析树 上下文范围 多任务学习

📋 核心要点

  1. 现有MABSA方法在情感线索感知、多模态信息对齐和语义噪声消除方面存在不足,限制了性能。
  2. DASCO框架利用依赖解析树增强上下文范围,通过多任务预训练和语法-语义分支融合,提升情感推理能力。
  3. 实验结果表明,DASCO在两个基准数据集上取得了SOTA性能,尤其在JMASA任务中F1和精度均有显著提升。

📝 摘要(中文)

本文提出了一种依赖结构增强的上下文范围框架(DASCO),用于多模态方面级情感分析(MABSA)。该框架旨在解决情感线索感知(SCP)、多模态信息错位(MIM)和语义噪声消除(SNE)这三个核心挑战。DASCO通过利用依赖解析树来增强方面级情感推理。首先,设计了一个多任务预训练策略,结合了面向方面的增强、图像-文本匹配和方面级情感敏感认知,以提高模型对方面术语和情感线索的感知,并实现有效的图像-文本对齐。其次,将依赖树作为语法分支与语义分支结合,引导模型选择性地关注目标特定范围内的关键上下文元素,同时有效过滤掉不相关的噪声。在两个基准数据集上的大量实验表明,DASCO在MABSA中实现了最先进的性能,在JMASA任务中取得了显著的提升。

🔬 方法详解

问题定义:多模态方面级情感分析(MABSA)旨在从图像-文本对中提取细粒度信息,以识别方面术语并确定其情感极性。现有方法在情感线索感知(SCP)、多模态信息错位(MIM)和语义噪声消除(SNE)三个方面存在不足,导致无法准确捕捉方面的情感。

核心思路:论文的核心思路是利用依赖解析树提供的句法信息,增强模型对上下文的理解和范围界定能力。通过依赖关系,模型可以更好地识别与目标方面相关的关键上下文元素,并过滤掉无关噪声,从而提高情感分析的准确性。同时,通过多任务预训练,提升模型对图像-文本对齐和情感线索的感知能力。

技术框架:DASCO框架包含以下主要模块:1) 多任务预训练模块:结合方面导向增强、图像-文本匹配和方面级情感认知三个任务,提升模型对方面和情感的感知能力。2) 依赖结构增强模块:将依赖解析树作为语法分支,与语义分支融合,引导模型关注目标特定范围内的关键上下文。3) 情感分类模块:基于增强的上下文表示,预测方面的情感极性。

关键创新:DASCO的关键创新在于将依赖解析树引入到MABSA任务中,并将其与语义信息有效融合。这种方法能够更准确地捕捉方面相关的上下文信息,并有效过滤掉噪声,从而提高情感分析的准确性。与现有方法相比,DASCO不仅考虑了语义信息,还充分利用了句法信息,从而更好地理解句子的结构和含义。

关键设计:多任务预训练中,使用了交叉熵损失函数进行情感分类,对比学习损失函数进行图像-文本匹配。依赖结构增强模块中,使用了图注意力网络(GAT)来学习依赖树的节点表示,并将其与语义表示进行融合。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DASCO在Twitter2015和Rest16两个基准数据集上进行了广泛的实验,并在三个子任务上都取得了SOTA性能。特别是在Twitter2015数据集的JMASA任务上,F1值提升了2.3%,精度提升了3.5%,证明了DASCO框架的有效性。

🎯 应用场景

该研究成果可应用于社交媒体情感分析、舆情监控、产品评论分析等领域。通过准确识别用户对特定方面的观点和情感,可以帮助企业更好地了解用户需求,改进产品和服务,提升品牌形象。此外,该技术还可以用于智能客服、个性化推荐等应用场景,提供更精准和个性化的服务。

📄 摘要(原文)

Multimodal Aspect-Based Sentiment Analysis (MABSA) seeks to extract fine-grained information from image-text pairs to identify aspect terms and determine their sentiment polarity. However, existing approaches often fall short in simultaneously addressing three core challenges: Sentiment Cue Perception (SCP), Multimodal Information Misalignment (MIM), and Semantic Noise Elimination (SNE). To overcome these limitations, we propose DASCO (\textbf{D}ependency Structure \textbf{A}ugmented \textbf{Sco}ping Framework), a fine-grained scope-oriented framework that enhances aspect-level sentiment reasoning by leveraging dependency parsing trees. First, we designed a multi-task pretraining strategy for MABSA on our base model, combining aspect-oriented enhancement, image-text matching, and aspect-level sentiment-sensitive cognition. This improved the model's perception of aspect terms and sentiment cues while achieving effective image-text alignment, addressing key challenges like SCP and MIM. Furthermore, we incorporate dependency trees as syntactic branch combining with semantic branch, guiding the model to selectively attend to critical contextual elements within a target-specific scope while effectively filtering out irrelevant noise for addressing SNE problem. Extensive experiments on two benchmark datasets across three subtasks demonstrate that DASCO achieves state-of-the-art performance in MABSA, with notable gains in JMASA (+2.3\% F1 and +3.5\% precision on Twitter2015). The source code is available at https://github.com/LHaoooo/DASCO .