Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction
作者: Nils Schwager, Simon Münker, Alistair Plum, Achim Rettinger
分类: cs.CL, cs.AI
发布日期: 2026-02-26
备注: 14 pages, 1 figure, 7 tables. Accepted to the 15th Workshop on Computational Approaches to Subjectivity, Sentiment & Social Media Analysis (WASSA) at EACL 2026, Rabat, Morocco
💡 一句话要点
提出条件化评论预测CCP任务,评估LLM模拟社交媒体用户行为的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社交媒体模拟 用户行为预测 条件化评论预测 监督微调
📋 核心要点
- 现有方法缺乏对LLM在社会科学中模拟用户行为的操作有效性的充分验证。
- 提出条件化评论预测(CCP)任务,通过比较LLM生成评论与真实用户评论,评估LLM的模拟能力。
- 实验表明,监督微调(SFT)虽然改善了文本结构,但可能降低语义准确性,且行为历史比显式角色描述更有效。
📝 摘要(中文)
本研究关注大型语言模型(LLMs)从探索性工具向社会科学中活跃的“硅基主体”转变,但缺乏对其操作有效性的广泛验证。论文提出了条件化评论预测(CCP)任务,该任务通过比较生成的输出与真实的数字痕迹,来预测用户如何评论给定的刺激。该框架能够严格评估当前LLM在模拟社交媒体用户行为方面的能力。研究评估了英语、德语和卢森堡语场景下的开源8B模型(Llama3.1, Qwen3, Ministral)。通过系统地比较提示策略(显式vs.隐式)和监督微调(SFT)的影响,我们发现了一种低资源环境下的形式与内容解耦的关键现象:SFT虽然对齐了文本输出的表面结构(长度和语法),但降低了语义基础。此外,我们证明了显式条件(生成的传记)在微调下变得冗余,因为模型成功地直接从行为历史中进行潜在推断。我们的发现挑战了当前“朴素提示”范式,并为高保真模拟提供了操作指南,优先考虑真实的行为痕迹而不是描述性角色。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLMs)在模拟社交媒体用户行为方面的能力。现有方法,如简单的提示工程,缺乏对LLM生成内容真实性和有效性的严格验证,难以保证模拟结果的可靠性。尤其是在低资源语言环境下,LLM的表现可能更差。
核心思路:论文的核心思路是通过构建一个可量化的评估框架,即条件化评论预测(CCP)任务,来系统地评估LLM生成评论与真实用户评论的相似度。通过比较不同提示策略和微调方法的效果,揭示LLM在模拟用户行为方面的优势和局限性。强调利用真实行为数据进行微调,而非依赖人工构建的角色描述。
技术框架:CCP任务的整体框架包括以下几个步骤:1) 收集社交媒体用户的行为数据(例如,评论历史)。2) 给定一个刺激(例如,一条帖子),要求LLM生成用户对该刺激的评论。3) 将生成的评论与用户的真实评论进行比较,使用各种指标评估生成评论的质量。4) 通过比较不同提示策略(显式 vs. 隐式)和微调方法(SFT)的效果,分析LLM的性能。
关键创新:论文的关键创新在于提出了条件化评论预测(CCP)任务,这是一个新颖的评估框架,能够量化LLM在模拟社交媒体用户行为方面的能力。此外,论文还揭示了在低资源环境下,监督微调(SFT)可能导致形式与内容解耦,以及行为历史比显式角色描述更有效。
关键设计:论文的关键设计包括:1) 比较显式提示(提供用户传记)和隐式提示(仅提供行为历史)的效果。2) 使用监督微调(SFT)来调整LLM的参数,使其更好地适应特定用户的行为模式。3) 在英语、德语和卢森堡语等不同语言环境下进行实验,评估LLM的跨语言能力。4) 使用多种评估指标,如文本相似度、语义相似度等,来全面评估生成评论的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在低资源语言环境下,监督微调(SFT)虽然可以改善文本的表面结构,但会降低语义准确性。此外,研究发现,在经过微调后,显式条件(用户传记)变得冗余,模型可以直接从行为历史中进行潜在推断。这意味着利用真实行为数据进行微调比依赖人工构建的角色描述更有效。
🎯 应用场景
该研究成果可应用于社交媒体分析、舆情监控、用户行为预测等领域。通过更准确地模拟用户行为,可以更好地理解社交媒体上的信息传播规律,预测用户对特定事件的反应,并为个性化推荐、内容生成等应用提供支持。未来,该方法可扩展到其他类型的用户行为模拟,例如电商平台的购买行为、在线论坛的讨论行为等。
📄 摘要(原文)
The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.