Detecting Calls to Action in Multimodal Content: Analysis of the 2021 German Federal Election Campaign on Instagram
作者: Michael Achmann-Denkler, Jakob Fehle, Mario Haim, Christian Wolff
分类: cs.SI, cs.CL
发布日期: 2024-09-04
备注: Accepted Archival Paper for the CPSS Workshop at KONVENS 2024. Camera Ready Submission
💡 一句话要点
利用BERT和GPT-4自动检测社交媒体行动呼吁,分析德国联邦选举Instagram活动
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 行动呼吁检测 社交媒体分析 BERT模型 GPT-4模型 多模态学习 政治传播 德国联邦选举
📋 核心要点
- 现有方法难以有效识别社交媒体内容中的行动呼吁,尤其是在多模态内容和特定政治语境下。
- 本研究通过微调BERT模型并结合合成数据,以及利用GPT-4模型,实现了对Instagram内容中行动呼吁的自动分类。
- 实验结果表明,微调BERT模型在行动呼吁检测任务中取得了显著的性能,宏平均F1分数达到0.93。
📝 摘要(中文)
本研究旨在通过自动分类2021年德国Instagram选举活动中的行动呼吁(CTAs),从而加深对社交媒体环境中动员的理解。我们分析了超过2208个Instagram stories和712个帖子,使用了微调的BERT模型和OpenAI的GPT-4模型。其中,结合合成训练数据的微调BERT模型实现了0.93的宏平均F1分数,展示了强大的分类性能。分析结果表明,49.58%的Instagram帖子和10.64%的stories包含CTAs,突出了这些内容类型之间动员策略的显著差异。此外,我们发现自民党(FDP)和绿党(Greens)在帖子中CTAs的出现频率最高,而基民盟(CDU)和基社盟(CSU)在story CTAs中领先。
🔬 方法详解
问题定义:本研究旨在解决在Instagram等多模态社交媒体内容中自动检测行动呼吁(CTAs)的问题。现有方法在处理图像和文本结合的多模态数据,以及特定政治竞选语境下的细粒度CTA识别方面存在不足,难以准确区分不同类型的CTA,并且缺乏对不同政党CTA使用策略的深入分析。
核心思路:论文的核心思路是利用深度学习模型,特别是预训练的BERT模型和GPT-4模型,对Instagram帖子和stories中的文本和图像信息进行分析,从而自动识别和分类CTA。通过微调BERT模型,使其适应特定任务和数据集,并结合合成数据增强训练,提高模型的泛化能力和鲁棒性。
技术框架:整体框架包括数据收集、数据预处理、模型训练和评估几个主要阶段。首先,收集2021年德国联邦选举期间的Instagram帖子和stories数据。然后,对文本数据进行清洗和tokenize,对图像数据进行特征提取。接着,使用微调的BERT模型和GPT-4模型进行CTA分类。最后,通过计算F1分数等指标评估模型的性能。
关键创新:本研究的关键创新在于:1) 利用微调的BERT模型和GPT-4模型进行多模态CTA检测;2) 结合合成数据增强训练,提高模型的泛化能力;3) 对不同政党在Instagram上使用CTA的策略进行了深入分析,揭示了不同内容形式(帖子和stories)中CTA使用的差异。
关键设计:在模型训练方面,使用了交叉熵损失函数进行优化。BERT模型采用了预训练的bert-base-german模型,并在此基础上进行了微调。合成数据的生成方法未知。GPT-4模型的使用细节未知。
📊 实验亮点
实验结果表明,微调的BERT模型在CTA检测任务中取得了显著的性能提升,宏平均F1分数达到0.93。该模型优于其他基线模型(具体基线模型未知),证明了其在多模态CTA检测方面的有效性。此外,研究还发现不同政党在Instagram上使用CTA的策略存在显著差异,为政治传播研究提供了新的视角。
🎯 应用场景
该研究成果可应用于社交媒体内容分析、舆情监控、政治传播研究等领域。通过自动检测行动呼吁,可以帮助研究人员和营销人员更好地理解社交媒体用户的行为模式和政治参与度,从而制定更有效的传播策略。此外,该技术还可以用于识别虚假信息和网络欺诈,维护网络安全。
📄 摘要(原文)
This study investigates the automated classification of Calls to Action (CTAs) within the 2021 German Instagram election campaign to advance the understanding of mobilization in social media contexts. We analyzed over 2,208 Instagram stories and 712 posts using fine-tuned BERT models and OpenAI's GPT-4 models. The fine-tuned BERT model incorporating synthetic training data achieved a macro F1 score of 0.93, demonstrating a robust classification performance. Our analysis revealed that 49.58% of Instagram posts and 10.64% of stories contained CTAs, highlighting significant differences in mobilization strategies between these content types. Additionally, we found that FDP and the Greens had the highest prevalence of CTAs in posts, whereas CDU and CSU led in story CTAs.