Extending a Parliamentary Corpus with MPs' Tweets: Automatic Annotation and Evaluation Using MultiParTweet

📄 arXiv: 2512.11567v1 📥 PDF

作者: Mevlüt Bagci, Ali Abusaleh, Daniel Baumartz, Giueseppe Abrami, Maxim Konca, Alexander Mehler

分类: cs.CL, cs.MM

发布日期: 2025-12-12

备注: Submitted to LREC 2026


💡 一句话要点

构建多语言议员推文语料库MultiParTweet,融合文本与视觉信息进行情感和主题分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言语料库 社交媒体分析 政治传播 情感分析 主题建模 视觉语言模型 推特数据挖掘

📋 核心要点

  1. 社交媒体在现代政治中扮演重要角色,反映政治家意识形态并促进与年轻一代的沟通,但缺乏整合议员社交媒体言论与议会辩论的资源。
  2. 论文核心在于构建MultiParTweet语料库,连接政治家的社交媒体言论与议会辩论,并利用多种文本和视觉-语言模型进行自动标注。
  3. 实验表明,不同模型之间具有相互可预测性,且人工标注者更倾向于基于视觉-语言模型(VLM)的标注结果,表明多模态表示更符合人类理解。

📝 摘要(中文)

本文提出了MultiParTweet,一个多语言推文语料库,旨在连接政治家的社交媒体言论与德国政治语料库GerParCor,从而实现在线交流与议会辩论的对比分析。MultiParTweet包含39546条推文,其中包括19056个媒体项目。此外,我们使用九个基于文本的模型和一个视觉-语言模型(VLM)对MultiParTweet进行情感、情绪和主题标注。自动标注通过手动标注的子集进行评估。MultiParTweet可以使用我们的工具TTLABTweetCrawler重建,该工具提供了一个从X收集数据的框架。为了展示方法论,我们研究了这些模型是否可以使用其余模型的输出来相互预测。总而言之,我们提供了MultiParTweet,一种集成了通过人工标注验证的自动文本和基于媒体的标注的资源,以及TTLABTweetCrawler,一种通用的X数据收集工具。我们的分析表明,这些模型是相互可预测的。此外,人工标注者更喜欢基于VLM的标注,这表明多模态表示更符合人类的解释。

🔬 方法详解

问题定义:现有方法缺乏将政治家的社交媒体言论(特别是推文)与其在议会辩论中的言论联系起来的资源,难以进行对比分析。此外,如何有效地利用文本和视觉信息对推文进行情感、情绪和主题标注也是一个挑战。现有方法可能只关注文本信息,忽略了推文中的图像等多模态信息,导致标注结果不够准确。

核心思路:论文的核心思路是构建一个多语言的推文语料库MultiParTweet,该语料库连接了政治家的社交媒体言论与议会辩论。同时,利用多种文本模型和视觉-语言模型(VLM)对推文进行自动标注,并使用人工标注进行验证。通过这种方式,可以更全面地理解政治家的言论,并提高标注的准确性。

技术框架:整体框架包括以下几个主要步骤:1) 使用TTLABTweetCrawler工具从X(原Twitter)收集政治家的推文数据。2) 将收集到的推文数据与德国政治语料库GerParCor进行连接。3) 使用九个基于文本的模型和一个视觉-语言模型(VLM)对MultiParTweet进行情感、情绪和主题标注。4) 使用人工标注的子集对自动标注结果进行评估。5) 分析不同模型之间的可预测性。

关键创新:该论文的关键创新在于:1) 构建了MultiParTweet语料库,这是一个连接政治家社交媒体言论与议会辩论的多语言资源。2) 采用了视觉-语言模型(VLM)进行推文标注,充分利用了推文中的多模态信息。3) 提出了TTLABTweetCrawler工具,方便从X收集数据。

关键设计:论文中使用了多种文本模型进行情感、情绪和主题标注,具体模型细节未知。视觉-语言模型(VLM)的具体选择和配置未知,但其在标注过程中发挥了重要作用。TTLABTweetCrawler工具的设计细节未知,但其能够有效地从X收集数据。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,不同的文本和视觉-语言模型之间具有相互可预测性,这意味着这些模型能够捕捉到推文中的相似信息。更重要的是,人工标注者更倾向于基于视觉-语言模型(VLM)的标注结果,这表明多模态表示更符合人类的理解,VLM在推文理解方面优于仅使用文本的模型。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于政治学、社会学、传播学等领域,用于分析政治家的言论、意识形态和公众形象。MultiParTweet语料库可作为研究人员的宝贵资源,促进对政治传播的深入理解。此外,该研究提出的自动标注方法和工具也可应用于其他社交媒体数据的分析,具有广泛的应用前景。

📄 摘要(原文)

Social media serves as a critical medium in modern politics because it both reflects politicians' ideologies and facilitates communication with younger generations. We present MultiParTweet, a multilingual tweet corpus from X that connects politicians' social media discourse with German political corpus GerParCor, thereby enabling comparative analyses between online communication and parliamentary debates. MultiParTweet contains 39 546 tweets, including 19 056 media items. Furthermore, we enriched the annotation with nine text-based models and one vision-language model (VLM) to annotate MultiParTweet with emotion, sentiment, and topic annotations. Moreover, the automated annotations are evaluated against a manually annotated subset. MultiParTweet can be reconstructed using our tool, TTLABTweetCrawler, which provides a framework for collecting data from X. To demonstrate a methodological demonstration, we examine whether the models can predict each other using the outputs of the remaining models. In summary, we provide MultiParTweet, a resource integrating automatic text and media-based annotations validated with human annotations, and TTLABTweetCrawler, a general-purpose X data collection tool. Our analysis shows that the models are mutually predictable. In addition, VLM-based annotation were preferred by human annotators, suggesting that multimodal representations align more with human interpretation.