Assessing Capabilities of Large Language Models in Social Media Analytics: A Multi-task Quest
作者: Ramtin Davoudi, Kartik Thakkar, Nazanin Donyapour, Tyler Derr, Hamid Karimi
分类: cs.CL, cs.AI, cs.SI
发布日期: 2026-04-21
💡 一句话要点
全面评估大型语言模型在社交媒体分析三大任务中的能力,并建立可复现的基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社交媒体分析 作者身份验证 帖子生成 用户属性推断
📋 核心要点
- 现有社交媒体分析方法在处理作者身份验证、内容生成和用户属性推断等任务时,面临泛化性差、真实性不足和标注成本高等挑战。
- 论文提出一个统一的评估框架,系统评估多个先进LLM在社交媒体分析三大任务上的表现,并着重关注泛化性和真实性。
- 实验结果表明,不同LLM在各项任务中表现各异,论文为LLM驱动的社交媒体分析提供了新的见解和可复现的基准。
📝 摘要(中文)
本研究首次对现代大型语言模型(LLMs)的能力进行了全面评估,包括GPT-4、GPT-4o、GPT-3.5-Turbo、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2和BERT等,评估任务涵盖Twitter(X)数据集上的三个核心社交媒体分析任务:(I)社交媒体作者身份验证,(II)社交媒体帖子生成,以及(III)用户属性推断。对于作者身份验证,我们引入了一个系统的抽样框架,涵盖了多样化的用户和帖子选择策略,并评估了模型在新收集的2024年1月之后的推文上的泛化能力,以减轻“见过的数据”偏差。对于帖子生成,我们使用全面的评估指标来评估LLM生成真实、用户风格内容的能力。为了连接任务I和II,我们进行了一项用户研究,以衡量真实用户对LLM根据他们自己的写作风格生成的帖子的感知。对于属性推断,我们使用两个标准化的分类法(IAB Tech Lab 2023和2018 U.S. SOC)来标注职业和兴趣,并将LLM与现有的基线模型进行比较。总的来说,我们统一的评估提供了新的见解,并为LLM驱动的社交媒体分析建立了可复现的基准。代码和数据在补充材料中提供,并在发表后公开。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在社交媒体分析中的能力,具体包括作者身份验证、社交媒体帖子生成和用户属性推断三个核心任务。现有方法在这些任务中存在诸多痛点,例如,作者身份验证容易受到“见过的数据”偏差的影响,帖子生成难以保证内容的真实性和用户风格,用户属性推断则面临标注数据不足和分类体系不完善的问题。
核心思路:论文的核心思路是构建一个统一的评估框架,对多个先进的LLMs在上述三个任务上进行系统性的评估和比较。该框架着重关注模型的泛化能力和生成内容的真实性,并采用多样化的评估指标和用户研究来全面衡量模型的性能。通过这种方式,论文旨在为LLM驱动的社交媒体分析提供新的见解和可复现的基准。
技术框架:论文的整体框架包括三个主要模块:(1) 作者身份验证模块,采用系统的抽样框架和新收集的数据来评估模型的泛化能力;(2) 帖子生成模块,使用全面的评估指标和用户研究来评估模型生成内容的真实性和用户风格;(3) 用户属性推断模块,使用标准化的分类法和现有的基线模型来评估模型的性能。这三个模块相互关联,共同构成了一个完整的评估体系。
关键创新:论文最重要的技术创新点在于其统一的评估框架,该框架能够全面、系统地评估LLMs在社交媒体分析中的能力。与现有方法相比,该框架更加注重模型的泛化能力和生成内容的真实性,并采用了多样化的评估指标和用户研究来提高评估的准确性和可靠性。此外,论文还引入了一个系统的抽样框架,用于缓解作者身份验证中的“见过的数据”偏差。
关键设计:在作者身份验证任务中,论文设计了一个系统的抽样框架,涵盖了多样化的用户和帖子选择策略,以评估模型在新收集的推文上的泛化能力。在帖子生成任务中,论文采用了BLEU、ROUGE等多种评估指标,并进行了一项用户研究,以衡量真实用户对LLM生成内容的感知。在用户属性推断任务中,论文使用了IAB Tech Lab 2023和2018 U.S. SOC两个标准化的分类法来标注职业和兴趣。
🖼️ 关键图片
📊 实验亮点
论文对包括GPT-4, GPT-4o, GPT-3.5-Turbo等多个先进LLM进行了评估,并在作者身份验证任务中,通过系统抽样和新数据,有效缓解了“见过的数据”偏差。用户研究表明,LLM生成的帖子在一定程度上能够模仿用户的写作风格。
🎯 应用场景
该研究成果可应用于社交媒体内容分析、舆情监控、虚假信息检测、个性化推荐等领域。通过评估和优化LLM在社交媒体分析任务中的表现,可以提升相关应用的智能化水平和用户体验,并为未来的研究提供参考。
📄 摘要(原文)
In this study, we present the first comprehensive evaluation of modern LLMs - including GPT-4, GPT-4o, GPT-3.5-Turbo, Gemini 1.5 Pro, DeepSeek-V3, Llama 3.2, and BERT - across three core social media analytics tasks on a Twitter (X) dataset: (I) Social Media Authorship Verification, (II) Social Media Post Generation, and (III) User Attribute Inference. For the authorship verification, we introduce a systematic sampling framework over diverse user and post selection strategies and evaluate generalization on newly collected tweets from January 2024 onward to mitigate "seen-data" bias. For post generation, we assess the ability of LLMs to produce authentic, user-like content using comprehensive evaluation metrics. Bridging Tasks I and II, we conduct a user study to measure real users' perceptions of LLM-generated posts conditioned on their own writing. For attribute inference, we annotate occupations and interests using two standardized taxonomies (IAB Tech Lab 2023 and 2018 U.S. SOC) and benchmark LLMs against existing baselines. Overall, our unified evaluation provides new insights and establishes reproducible benchmarks for LLM-driven social media analytics. The code and data are provided in the supplementary material and will also be made publicly available upon publication.