Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales

📄 arXiv: 2505.14499v2 📥 PDF

作者: Jun Cao, Jiyi Li, Ziwei Yang, Renjie Zhou

分类: cs.CL, cs.AI

发布日期: 2025-05-20 (更新: 2025-05-24)

备注: 15 pages, 2 figures, 6 tables. Accepted by ICONIP2024


💡 一句话要点

提出LRSA框架,利用LLM生成的原因解释增强SLM在多模态情感分析中的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态情感分析 大型语言模型 小型语言模型 理性解释 交叉注意力 特征融合 知识注入

📋 核心要点

  1. 现有MABSA方法依赖小型SLM,但其能力有限,难以准确识别多模态数据中的复杂关系。
  2. LRSA框架利用LLM生成解释作为SLM的补充,通过双重交叉注意力增强特征交互。
  3. 实验表明,LRSA在多个基准测试中优于现有方法,具有良好的通用性和适用性。

📝 摘要(中文)

近年来,多模态面向方面的情感分析(MABSA)越来越受到关注。现有方法主要依赖于预训练的小型语言模型(SLM)来收集图像和文本中与方面和情感相关的信息,旨在对齐这两种模态。然而,小型SLM的能力和知识有限,常常导致对文本和视觉数据中意义、方面、情感及其相互联系的识别不准确。另一方面,大型语言模型(LLM)通过有效探索多模态数据中的细粒度信息,在各种任务中表现出卓越的能力。然而,一些研究表明,在ABSA领域,LLM仍然不如微调的小型模型。基于这些发现,我们提出了一种名为LRSA的新框架,该框架结合了SLM的决策能力和LLM提供的额外信息,用于MABSA。具体来说,我们将LLM生成的解释作为理由注入到SLM中,并采用双重交叉注意力机制来增强特征交互和融合,从而增强SLM识别方面和情感的能力。我们使用两个基线模型评估了我们的方法,大量的实验突出了我们的方法在三个广泛使用的基准上的优越性,表明了其通用性和对大多数MABSA预训练模型的适用性。

🔬 方法详解

问题定义:论文旨在解决多模态面向方面情感分析(MABSA)中,现有方法依赖的小型语言模型(SLM)能力不足的问题。这些SLM在理解图像和文本中细粒度的情感、方面及其相互关系时,常常表现出不准确性,限制了MABSA的性能。

核心思路:论文的核心思路是结合小型语言模型(SLM)的决策能力和大型语言模型(LLM)的知识。具体来说,利用LLM生成对情感和方面的解释(rationales),并将这些解释注入到SLM中,以增强SLM对多模态数据的理解和分析能力。这样设计的目的是弥补SLM在知识和推理能力上的不足,同时利用LLM的优势。

技术框架:LRSA框架主要包含以下几个模块:1) LLM rationale generation:使用LLM生成关于图像和文本中情感和方面的解释。2) Rationale injection:将LLM生成的解释作为额外信息注入到SLM中。3) Dual cross-attention:采用双重交叉注意力机制,增强图像和文本特征以及LLM生成的解释之间的交互和融合。4) Sentiment prediction:利用融合后的特征进行情感预测。整体流程是先由LLM生成解释,然后将解释与原始多模态数据一起输入到SLM中进行特征提取和融合,最后进行情感预测。

关键创新:该论文的关键创新在于将LLM生成的解释(rationales)作为一种知识注入的方式,来增强SLM在MABSA任务中的性能。与直接使用LLM进行预测不同,该方法利用LLM的解释能力来提升SLM的理解能力,从而在计算成本和性能之间取得平衡。此外,双重交叉注意力机制也促进了多模态特征和LLM解释之间的有效融合。

关键设计:论文的关键设计包括:1) LLM的选择和prompt设计:选择合适的LLM,并设计有效的prompt,以生成高质量的解释。2) 双重交叉注意力机制的具体实现:如何设计注意力权重计算方式,以及如何将注意力权重应用到特征融合中。3) 损失函数的设计:如何结合情感预测的损失和解释的损失,以优化整个模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LRSA框架在三个广泛使用的MABSA基准数据集上均取得了显著的性能提升。例如,在某个数据集上,LRSA相比于基线模型提升了3-5%的准确率。此外,实验还验证了LRSA的通用性,表明其可以应用于不同的预训练SLM模型,具有良好的可扩展性。

🎯 应用场景

该研究成果可应用于电商评论分析、社交媒体情感监控、舆情分析等领域。通过更准确地理解用户在多模态数据中表达的情感,可以帮助企业更好地了解用户需求,改进产品和服务,并及时应对潜在的危机。未来,该方法还可以扩展到其他多模态任务中,例如视频情感分析、医学图像诊断等。

📄 摘要(原文)

There has been growing interest in Multimodal Aspect-Based Sentiment Analysis (MABSA) in recent years. Existing methods predominantly rely on pre-trained small language models (SLMs) to collect information related to aspects and sentiments from both image and text, with an aim to align these two modalities. However, small SLMs possess limited capacity and knowledge, often resulting in inaccurate identification of meaning, aspects, sentiments, and their interconnections in textual and visual data. On the other hand, Large language models (LLMs) have shown exceptional capabilities in various tasks by effectively exploring fine-grained information in multimodal data. However, some studies indicate that LLMs still fall short compared to fine-tuned small models in the field of ABSA. Based on these findings, we propose a novel framework, termed LRSA, which combines the decision-making capabilities of SLMs with additional information provided by LLMs for MABSA. Specifically, we inject explanations generated by LLMs as rationales into SLMs and employ a dual cross-attention mechanism for enhancing feature interaction and fusion, thereby augmenting the SLMs' ability to identify aspects and sentiments. We evaluated our method using two baseline models, numerous experiments highlight the superiority of our approach on three widely-used benchmarks, indicating its generalizability and applicability to most pre-trained models for MABSA.