Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction
作者: Nils Schwager, Simon Münker, Alistair Plum, Achim Rettinger
分类: cs.CL, cs.AI
发布日期: 2026-02-28
💡 一句话要点
提出条件化评论预测CCP任务,评估LLM模拟社交媒体用户行为的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社交媒体模拟 条件化评论预测 用户行为建模 监督微调
📋 核心要点
- 现有方法缺乏对LLM在社会科学中模拟用户行为的有效性验证,阻碍了其更广泛的应用。
- 论文提出条件化评论预测(CCP)任务,通过比较LLM生成评论与真实用户评论,评估LLM的模拟能力。
- 实验表明,监督微调(SFT)在低资源场景下会造成形式与内容解耦,且微调后显式条件变得冗余。
📝 摘要(中文)
本研究关注大型语言模型(LLMs)在社会科学中作为“硅基主体”的应用,但缺乏对其操作有效性的充分验证。为此,我们提出了条件化评论预测(CCP)任务,该任务通过比较模型生成的输出与真实的数字痕迹,来预测用户对特定刺激的评论。该框架能够严格评估当前LLM在模拟社交媒体用户行为方面的能力。我们评估了开放权重8B模型(Llama3.1、Qwen3、Ministral)在英语、德语和卢森堡语环境下的表现。通过系统地比较显式与隐式提示策略以及监督微调(SFT)的影响,我们发现低资源环境中存在一种关键的形式与内容解耦现象:SFT虽然能够对齐文本输出的表面结构(长度和语法),但会降低语义基础。此外,我们证明了在微调后,显式条件(生成的个人简介)变得冗余,因为模型能够直接从行为历史中成功进行潜在推理。我们的研究结果挑战了当前“朴素提示”范式,并为高保真模拟提供了操作指南,即优先考虑真实的行为痕迹而非描述性角色。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLMs)在模拟社交媒体用户行为方面的能力。现有方法主要依赖于“朴素提示”,即通过提供描述性角色信息来引导LLM生成内容,但缺乏对生成内容真实性和有效性的严格评估。这种方法的痛点在于,无法保证LLM生成的评论能够真实反映用户的行为模式和偏好。
核心思路:论文的核心思路是提出条件化评论预测(CCP)任务,将LLM的评论生成过程与真实用户的历史行为数据进行对比。通过这种方式,可以更客观地评估LLM在模拟用户行为方面的能力,并发现不同提示策略和微调方法对模型性能的影响。核心在于利用真实数据作为ground truth,而非依赖主观的角色描述。
技术框架:CCP任务的技术框架主要包括以下几个阶段:1) 数据收集:收集社交媒体用户的历史评论数据和对应的刺激信息(例如,帖子内容)。2) 模型训练:使用不同的提示策略(显式或隐式)和微调方法(SFT)训练LLM。3) 评论生成:给定刺激信息,LLM生成用户可能发表的评论。4) 评估:将生成的评论与真实用户的评论进行对比,评估模型的性能。评估指标可能包括文本相似度、语义一致性等。
关键创新:论文最重要的技术创新点在于提出了CCP任务,这是一种新的评估LLM模拟用户行为能力的方法。与传统的基于角色描述的提示方法相比,CCP任务更加客观和可靠,因为它直接利用真实用户的行为数据作为评估标准。此外,论文还发现了低资源环境中形式与内容解耦的现象,以及微调后显式条件变得冗余的现象,这些发现对LLM的应用具有重要的指导意义。
关键设计:论文的关键设计包括:1) 显式提示与隐式提示的对比:显式提示是指向LLM提供用户的个人简介信息,而隐式提示则只提供用户的历史评论数据。2) 监督微调(SFT)的应用:通过SFT,使LLM更好地适应特定用户的评论风格。3) 多语言环境的评估:在英语、德语和卢森堡语等多种语言环境下评估模型的性能,以考察模型的泛化能力。4) 模型选择:选择了Llama3.1、Qwen3、Ministral等开放权重8B模型进行评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在低资源环境中,监督微调(SFT)虽然能够提升文本输出的表面结构,但会降低语义基础。此外,微调后显式条件(生成的个人简介)变得冗余,模型可以直接从行为历史中进行潜在推理。这些发现挑战了当前“朴素提示”范式,并为高保真模拟提供了新的方向。
🎯 应用场景
该研究成果可应用于社交媒体分析、舆情监控、个性化推荐等领域。通过更准确地模拟用户行为,可以更好地理解用户需求,预测用户反应,从而为企业和政府提供决策支持。未来,该研究可扩展到其他类型的用户行为模拟,例如购物行为、搜索行为等。
📄 摘要(原文)
The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.