Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

作者: Nils Schwager, Simon Münker, Alistair Plum, Achim Rettinger

分类: cs.CL, cs.AI

发布日期: 2026-02-28

💡 一句话要点

提出条件化评论预测CCP任务，评估LLM模拟社交媒体用户行为的有效性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社交媒体模拟 条件化评论预测 用户行为建模 监督微调

📋 核心要点

现有方法缺乏对LLM在社会科学中模拟用户行为的有效性验证，阻碍了其更广泛的应用。
论文提出条件化评论预测（CCP）任务，通过比较LLM生成评论与真实用户评论，评估LLM的模拟能力。
实验表明，监督微调（SFT）在低资源场景下会造成形式与内容解耦，且微调后显式条件变得冗余。

📝 摘要（中文）

本研究关注大型语言模型（LLMs）在社会科学中作为“硅基主体”的应用，但缺乏对其操作有效性的充分验证。为此，我们提出了条件化评论预测（CCP）任务，该任务通过比较模型生成的输出与真实的数字痕迹，来预测用户对特定刺激的评论。该框架能够严格评估当前LLM在模拟社交媒体用户行为方面的能力。我们评估了开放权重8B模型（Llama3.1、Qwen3、Ministral）在英语、德语和卢森堡语环境下的表现。通过系统地比较显式与隐式提示策略以及监督微调（SFT）的影响，我们发现低资源环境中存在一种关键的形式与内容解耦现象：SFT虽然能够对齐文本输出的表面结构（长度和语法），但会降低语义基础。此外，我们证明了在微调后，显式条件（生成的个人简介）变得冗余，因为模型能够直接从行为历史中成功进行潜在推理。我们的研究结果挑战了当前“朴素提示”范式，并为高保真模拟提供了操作指南，即优先考虑真实的行为痕迹而非描述性角色。

🔬 方法详解

问题定义：论文旨在解决如何有效评估大型语言模型（LLMs）在模拟社交媒体用户行为方面的能力。现有方法主要依赖于“朴素提示”，即通过提供描述性角色信息来引导LLM生成内容，但缺乏对生成内容真实性和有效性的严格评估。这种方法的痛点在于，无法保证LLM生成的评论能够真实反映用户的行为模式和偏好。

核心思路：论文的核心思路是提出条件化评论预测（CCP）任务，将LLM的评论生成过程与真实用户的历史行为数据进行对比。通过这种方式，可以更客观地评估LLM在模拟用户行为方面的能力，并发现不同提示策略和微调方法对模型性能的影响。核心在于利用真实数据作为ground truth，而非依赖主观的角色描述。

技术框架：CCP任务的技术框架主要包括以下几个阶段：1) 数据收集：收集社交媒体用户的历史评论数据和对应的刺激信息（例如，帖子内容）。2) 模型训练：使用不同的提示策略（显式或隐式）和微调方法（SFT）训练LLM。3) 评论生成：给定刺激信息，LLM生成用户可能发表的评论。4) 评估：将生成的评论与真实用户的评论进行对比，评估模型的性能。评估指标可能包括文本相似度、语义一致性等。

关键创新：论文最重要的技术创新点在于提出了CCP任务，这是一种新的评估LLM模拟用户行为能力的方法。与传统的基于角色描述的提示方法相比，CCP任务更加客观和可靠，因为它直接利用真实用户的行为数据作为评估标准。此外，论文还发现了低资源环境中形式与内容解耦的现象，以及微调后显式条件变得冗余的现象，这些发现对LLM的应用具有重要的指导意义。

关键设计：论文的关键设计包括：1) 显式提示与隐式提示的对比：显式提示是指向LLM提供用户的个人简介信息，而隐式提示则只提供用户的历史评论数据。2) 监督微调（SFT）的应用：通过SFT，使LLM更好地适应特定用户的评论风格。3) 多语言环境的评估：在英语、德语和卢森堡语等多种语言环境下评估模型的性能，以考察模型的泛化能力。4) 模型选择：选择了Llama3.1、Qwen3、Ministral等开放权重8B模型进行评估。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在低资源环境中，监督微调（SFT）虽然能够提升文本输出的表面结构，但会降低语义基础。此外，微调后显式条件（生成的个人简介）变得冗余，模型可以直接从行为历史中进行潜在推理。这些发现挑战了当前“朴素提示”范式，并为高保真模拟提供了新的方向。

🎯 应用场景

该研究成果可应用于社交媒体分析、舆情监控、个性化推荐等领域。通过更准确地模拟用户行为，可以更好地理解用户需求，预测用户反应，从而为企业和政府提供决策支持。未来，该研究可扩展到其他类型的用户行为模拟，例如购物行为、搜索行为等。

📄 摘要（原文）

The transition of Large Language Models (LLMs) from exploratory tools to active "silicon subjects" in social science lacks extensive validation of operational validity. This study introduces Conditioned Comment Prediction (CCP), a task in which a model predicts how a user would comment on a given stimulus by comparing generated outputs with authentic digital traces. This framework enables a rigorous evaluation of current LLM capabilities with respect to the simulation of social media user behavior. We evaluated open-weight 8B models (Llama3.1, Qwen3, Ministral) in English, German, and Luxembourgish language scenarios. By systematically comparing prompting strategies (explicit vs. implicit) and the impact of Supervised Fine-Tuning (SFT), we identify a critical form vs. content decoupling in low-resource settings: while SFT aligns the surface structure of the text output (length and syntax), it degrades semantic grounding. Furthermore, we demonstrate that explicit conditioning (generated biographies) becomes redundant under fine-tuning, as models successfully perform latent inference directly from behavioral histories. Our findings challenge current "naive prompting" paradigms and offer operational guidelines prioritizing authentic behavioral traces over descriptive personas for high-fidelity simulation.

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理