Donate or Create? Comparing Data Collection Strategies for Emotion-labeled Multimodal Social Media Posts

📄 arXiv: 2505.24427v1 📥 PDF

作者: Christopher Bagdon, Aidan Combs, Carina Silberer, Roman Klinger

分类: cs.CL

发布日期: 2025-05-30

备注: Published at ACL 2025


💡 一句话要点

对比捐赠数据与生成数据,评估情感识别多模态社交媒体内容的数据收集策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感识别 多模态数据 数据收集策略 社交媒体 数据捐赠 数据生成 模型泛化能力

📋 核心要点

  1. 情感识别模型训练依赖于标注数据,但真实数据收集面临隐私风险和实施难度。
  2. 论文对比分析了捐赠的真实数据和研究中创建的数据,考察二者在情感表达上的差异。
  3. 实验表明,研究创建的数据可用于训练泛化性好的模型,但真实数据对评估模型效果至关重要。

📝 摘要(中文)

准确建模情感表达等主观现象需要带有作者意图标注的数据。通常,此类数据通过要求研究参与者捐赠并标注真实世界的内容,或在研究期间创建符合特定标签的内容来收集。与数据捐赠相比,要求参与者创建内容通常更容易实施,并且对参与者隐私的风险更小。然而,研究创建的内容与真实内容之间是否存在差异,以及这些差异如何影响模型尚不清楚。我们收集了研究创建的和真实的、带有情感标签的多模态社交媒体帖子,并在多个维度上比较它们,包括模型性能。我们发现,与真实帖子相比,研究创建的帖子更长,更多地依赖文本而非图像来表达情感,并且更多地关注情感原型事件。愿意捐赠和创建帖子的参与者样本在人口统计学上存在差异。研究创建的数据对于训练能够很好地泛化到真实数据的模型很有价值,但要获得现实的有效性估计,需要真实数据。

🔬 方法详解

问题定义:情感识别模型训练需要大量标注数据,但直接使用用户捐赠的真实数据存在隐私泄露风险,且数据收集过程复杂。另一种方法是让参与者根据指定情感标签创建数据,但这种方法生成的数据是否与真实数据一致,以及对模型性能的影响尚不明确。现有研究缺乏对这两种数据收集策略的系统性比较。

核心思路:论文的核心思路是通过对比分析两种数据收集策略(捐赠真实数据 vs. 创建模拟数据)所获得的数据在多个维度上的差异,包括文本长度、情感表达方式(文本 vs. 图像)、情感事件类型以及人口统计学特征,从而评估不同数据来源对情感识别模型训练的影响。

技术框架:论文采用实验对比的方法。首先,收集两种类型的数据:一是用户捐赠的真实社交媒体帖子,二是研究参与者根据指定情感标签创建的模拟帖子。然后,对这两种数据进行多维度分析,包括:1) 文本长度;2) 情感表达方式(文本和图像的贡献);3) 情感事件类型;4) 人口统计学特征。最后,使用这两种数据分别训练情感识别模型,并在真实数据上评估模型的性能。

关键创新:论文的关键创新在于系统性地对比分析了两种常用的情感识别数据收集策略,揭示了研究创建的数据与真实数据在多个维度上的差异,并评估了这些差异对模型性能的影响。这为研究者选择合适的数据收集策略提供了重要的参考依据。

关键设计:论文的关键设计包括:1) 收集了足够规模的真实数据和研究创建的数据,保证了分析结果的可靠性;2) 从多个维度对数据进行分析,全面评估了两种数据来源的差异;3) 使用相同的情感识别模型和评估指标,保证了模型性能比较的公平性;4) 考虑了人口统计学特征对数据差异的影响,使分析结果更加全面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,与真实帖子相比,研究创建的帖子更长,更依赖文本表达情感,更关注情感原型事件。使用研究创建的数据训练的模型在真实数据上表现良好,但要获得准确的性能评估,仍需使用真实数据。人口统计学分析表明,捐赠数据和创建数据的参与者群体存在显著差异。

🎯 应用场景

该研究成果可应用于情感识别、舆情分析、人机交互等领域。通过了解不同数据收集策略的优缺点,研究者可以选择更合适的方法来构建高质量的情感标注数据集,从而提高情感识别模型的性能和泛化能力。此外,该研究也为社交媒体平台的内容审核和用户隐私保护提供了参考。

📄 摘要(原文)

Accurate modeling of subjective phenomena such as emotion expression requires data annotated with authors' intentions. Commonly such data is collected by asking study participants to donate and label genuine content produced in the real world, or create content fitting particular labels during the study. Asking participants to create content is often simpler to implement and presents fewer risks to participant privacy than data donation. However, it is unclear if and how study-created content may differ from genuine content, and how differences may impact models. We collect study-created and genuine multimodal social media posts labeled for emotion and compare them on several dimensions, including model performance. We find that compared to genuine posts, study-created posts are longer, rely more on their text and less on their images for emotion expression, and focus more on emotion-prototypical events. The samples of participants willing to donate versus create posts are demographically different. Study-created data is valuable to train models that generalize well to genuine data, but realistic effectiveness estimates require genuine data.