SoMe: A Realistic Benchmark for LLM-based Social Media Agents
作者: Dizhan Xue, Jing Cui, Shengsheng Qian, Chuanrui Hu, Changsheng Xu
分类: cs.SI, cs.AI, cs.CL
发布日期: 2025-12-09
备注: Accepted by AAAI 2026
🔗 代码/项目: GITHUB
💡 一句话要点
SoMe:一个面向LLM社交媒体代理的现实基准测试平台
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社交媒体代理 大型语言模型 基准测试 内容理解 用户行为分析
📋 核心要点
- 现有方法缺乏对LLM驱动的社交媒体代理在理解内容、用户行为和决策能力方面的全面评估。
- SoMe基准测试平台通过提供多样化的社交媒体数据和任务,旨在弥补现有评估方法的不足。
- 实验结果表明,现有LLM在SoMe基准测试上表现不佳,揭示了其在真实社交媒体环境中的局限性。
📝 摘要(中文)
本文提出了SoMe,一个开创性的基准测试平台,旨在评估基于大型语言模型(LLM)的社交媒体代理的能力,包括理解媒体内容、理解用户行为以及做出复杂决策。SoMe包含8个社交媒体代理任务,涉及9,164,284条帖子、6,591个用户资料和25,686份来自各种社交媒体平台和外部网站的报告,以及17,869个精心标注的任务查询。与现有的社交媒体任务数据集和基准相比,SoMe是第一个为基于LLM的社交媒体代理提供通用且真实的平台,以处理各种社交媒体任务。通过广泛的定量和定性分析,我们首次全面了解了主流代理LLM在真实社交媒体环境中的性能,并发现了若干局限性。评估表明,当前闭源和开源LLM都无法令人满意地处理社交媒体代理任务。SoMe为未来的社交媒体代理提供了一个具有挑战性但有意义的测试平台。代码和数据可在https://github.com/LivXue/SoMe 获取。
🔬 方法详解
问题定义:现有社交媒体任务的评估数据集和基准测试,无法全面评估基于LLM的社交媒体代理在真实场景下的能力,尤其是在理解复杂内容、用户行为和进行决策方面。现有方法缺乏一个统一的、现实的平台来测试LLM代理在各种社交媒体任务中的表现。
核心思路:SoMe的核心思路是构建一个包含多样化社交媒体数据和任务的基准测试平台,以模拟真实的社交媒体环境。通过提供各种代理工具,使LLM能够访问和分析社交媒体数据,从而更全面地评估其能力。这样设计的目的是为了更准确地反映LLM在实际应用中的表现,并发现其局限性。
技术框架:SoMe平台包含以下主要组成部分:1) 多样化的社交媒体数据集,包括帖子、用户资料和报告;2) 一系列社交媒体代理任务,涵盖内容理解、用户行为分析和决策制定;3) 代理工具,用于访问和分析社交媒体数据;4) 评估指标,用于衡量LLM代理的性能。整体流程是,LLM代理使用代理工具访问社交媒体数据,然后根据任务要求进行分析和决策,最后通过评估指标评估其性能。
关键创新:SoMe的关键创新在于其提供了一个通用且真实的平台,用于评估基于LLM的社交媒体代理。它是第一个提供如此多样化和现实的数据集和任务的基准测试平台。此外,SoMe还提供了各种代理工具,使LLM能够更有效地访问和分析社交媒体数据。与现有方法相比,SoMe更注重模拟真实的社交媒体环境,从而更准确地评估LLM代理的能力。
关键设计:SoMe包含8个社交媒体代理任务,涵盖内容理解、用户行为分析和决策制定。数据集包含9,164,284条帖子、6,591个用户资料和25,686份报告,以及17,869个精心标注的任务查询。具体任务包括但不限于:情感分析、主题识别、用户画像、虚假信息检测和推荐系统。评估指标包括准确率、召回率、F1值等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前主流的闭源和开源LLM在SoMe基准测试上的表现均不令人满意,揭示了它们在真实社交媒体环境中的局限性。具体来说,LLM在处理复杂内容、理解用户行为和进行决策方面存在困难。例如,在虚假信息检测任务中,LLM的准确率低于预期。这些结果表明,需要进一步研究和改进LLM,以使其更好地适应社交媒体环境。
🎯 应用场景
SoMe基准测试平台可用于评估和改进基于LLM的社交媒体代理,从而提升其在内容理解、用户行为分析和决策制定方面的能力。这有助于开发更智能、更有效的社交媒体应用,例如个性化推荐、虚假信息检测和舆情分析。未来,SoMe可以扩展到其他社交媒体平台和任务,并与其他AI技术相结合,以构建更强大的社交媒体代理。
📄 摘要(原文)
Intelligent agents powered by large language models (LLMs) have recently demonstrated impressive capabilities and gained increasing popularity on social media platforms. While LLM agents are reshaping the ecology of social media, there exists a current gap in conducting a comprehensive evaluation of their ability to comprehend media content, understand user behaviors, and make intricate decisions. To address this challenge, we introduce SoMe, a pioneering benchmark designed to evaluate social media agents equipped with various agent tools for accessing and analyzing social media data. SoMe comprises a diverse collection of 8 social media agent tasks, 9,164,284 posts, 6,591 user profiles, and 25,686 reports from various social media platforms and external websites, with 17,869 meticulously annotated task queries. Compared with the existing datasets and benchmarks for social media tasks, SoMe is the first to provide a versatile and realistic platform for LLM-based social media agents to handle diverse social media tasks. By extensive quantitative and qualitative analysis, we provide the first overview insight into the performance of mainstream agentic LLMs in realistic social media environments and identify several limitations. Our evaluation reveals that both the current closed-source and open-source LLMs cannot handle social media agent tasks satisfactorily. SoMe provides a challenging yet meaningful testbed for future social media agents. Our code and data are available at https://github.com/LivXue/SoMe