Figurative-cum-Commonsense Knowledge Infusion for Multimodal Mental Health Meme Classification

📄 arXiv: 2501.15321v1 📥 PDF

作者: Abdullah Mazhar, Zuhair hasan shaik, Aseem Srivastava, Polly Ruhnke, Lavanya Vaddavalli, Sri Keshav Katragadda, Shweta Yadav, Md Shad Akhtar

分类: cs.CL, cs.SI

发布日期: 2025-01-25

备注: Accepted for oral presentation at The Web Conference (WWW) 2025


💡 一句话要点

提出M3H框架,通过常识知识增强多模态模型,提升心理健康Meme分类性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 心理健康 Meme分类 常识知识 隐喻理解 知识图谱 领域知识 自然语言处理

📋 核心要点

  1. 现有方法难以理解Meme中通过隐喻表达的心理健康问题,缺乏常识知识。
  2. 提出M3H框架,通过注入常识知识和领域知识,提升多模态模型对隐喻的理解能力。
  3. 在AxiOM和RESTORE数据集上进行实验,M3H在weighted-F1指标上分别提升4.20%和4.66%。

📝 摘要(中文)

近年来,通过Meme等非传统方式表达心理健康问题日益受到关注,用户常借助Meme中的隐喻来表达内心的挣扎。虽然人类可以依靠常识知识来理解这些复杂的表达,但现有的多模态语言模型(MLM)难以捕捉Meme中固有的隐喻。为了解决这个问题,我们引入了一个新的数据集AxiOM,该数据集源于GAD焦虑问卷,将Meme分为六种细粒度的焦虑症状。此外,我们提出了一个常识和领域知识丰富的框架M3H,以增强MLM解释隐喻和常识知识的能力。总体目标是首先理解然后分类Meme中表达的心理健康症状。我们将M3H与6个具有竞争力的基线模型(20个变体)进行基准测试,在定量和定性指标(包括详细的人工评估)方面都表现出改进。在weighted-F1指标上,我们观察到4.20%和4.66%的明显提升。为了评估泛化能力,我们对公共数据集RESTORE进行了广泛的实验,用于识别抑郁症状,并进行了广泛的消融研究,突出了每个模块在两个数据集中的贡献。我们的研究结果揭示了现有模型的局限性,以及利用常识来增强隐喻理解的优势。

🔬 方法详解

问题定义:论文旨在解决多模态语言模型在理解和分类心理健康Meme时,由于缺乏常识知识和对隐喻的理解能力而导致的性能瓶颈。现有方法难以捕捉Meme中通过隐喻表达的复杂心理健康症状,导致分类准确率不高。

核心思路:论文的核心思路是通过注入常识知识和领域知识,增强多模态语言模型对Meme中隐喻的理解能力。具体而言,M3H框架利用常识知识图谱和领域相关的知识库,为模型提供更丰富的上下文信息,从而提高模型对Meme中隐喻含义的推断能力。

技术框架:M3H框架包含以下主要模块:1) Meme编码器:用于提取Meme的视觉和文本特征。2) 常识知识注入模块:利用常识知识图谱,为Meme的文本描述添加相关的常识知识。3) 领域知识注入模块:利用领域知识库,为Meme的文本描述添加相关的心理健康领域知识。4) 多模态融合模块:将Meme的视觉特征、文本特征、常识知识和领域知识进行融合,得到Meme的最终表示。5) 分类器:根据Meme的最终表示,预测Meme所表达的心理健康症状。

关键创新:M3H框架的关键创新在于其常识知识和领域知识注入模块。与现有方法相比,M3H框架能够更有效地利用常识知识和领域知识,从而提高模型对Meme中隐喻的理解能力。此外,M3H框架还引入了一个新的数据集AxiOM,该数据集包含细粒度的焦虑症状标签,为心理健康Meme分类任务提供了更丰富的数据资源。

关键设计:在常识知识注入模块中,论文使用了ConceptNet作为常识知识图谱,并利用图注意力网络(GAT)来学习常识知识的表示。在领域知识注入模块中,论文使用了心理健康相关的知识库,并利用BERT模型来学习领域知识的表示。在多模态融合模块中,论文使用了注意力机制来融合Meme的视觉特征、文本特征、常识知识和领域知识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,M3H框架在AxiOM和RESTORE数据集上均取得了显著的性能提升。在AxiOM数据集上,M3H框架在weighted-F1指标上提升了4.20%。在RESTORE数据集上,M3H框架在weighted-F1指标上提升了4.66%。消融实验表明,常识知识注入模块和领域知识注入模块对M3H框架的性能提升起着关键作用。

🎯 应用场景

该研究成果可应用于心理健康监测、早期预警和干预。通过自动分析社交媒体上的Meme,可以帮助识别潜在的心理健康问题,并为用户提供个性化的心理健康支持。此外,该研究还可以促进对心理健康问题更深入的理解和认知,从而减少社会偏见和歧视。

📄 摘要(原文)

The expression of mental health symptoms through non-traditional means, such as memes, has gained remarkable attention over the past few years, with users often highlighting their mental health struggles through figurative intricacies within memes. While humans rely on commonsense knowledge to interpret these complex expressions, current Multimodal Language Models (MLMs) struggle to capture these figurative aspects inherent in memes. To address this gap, we introduce a novel dataset, AxiOM, derived from the GAD anxiety questionnaire, which categorizes memes into six fine-grained anxiety symptoms. Next, we propose a commonsense and domain-enriched framework, M3H, to enhance MLMs' ability to interpret figurative language and commonsense knowledge. The overarching goal remains to first understand and then classify the mental health symptoms expressed in memes. We benchmark M3H against 6 competitive baselines (with 20 variations), demonstrating improvements in both quantitative and qualitative metrics, including a detailed human evaluation. We observe a clear improvement of 4.20% and 4.66% on weighted-F1 metric. To assess the generalizability, we perform extensive experiments on a public dataset, RESTORE, for depressive symptom identification, presenting an extensive ablation study that highlights the contribution of each module in both datasets. Our findings reveal limitations in existing models and the advantage of employing commonsense to enhance figurative understanding.