The Collective Turing Test: Large Language Models Can Generate Realistic Multi-User Discussions

作者: Azza Bouleimen, Giordano De Marzo, Taehee Kim, Nicol`o Pagan, Hannah Metzler, Silvia Giordano, David Garcia

分类: cs.CL, cs.AI

发布日期: 2025-10-29

💡 一句话要点

大型语言模型生成的多用户讨论具有高度真实性，可用于模拟在线社区。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社交媒体模拟 图灵测试 多用户对话 真实性评估

📋 核心要点

现有方法难以有效验证LLM在模拟社交媒体对话中的真实性和有效性，阻碍了其在社会模拟中的应用。
本研究通过对比LLM生成对话与真实Reddit对话，评估人类区分二者的能力，以此验证LLM的模拟效果。
实验表明，Llama 3生成的对话难以与真实对话区分，仅有56%的识别率，证明LLM具备生成高真实度社交对话的能力。

📝 摘要（中文）

大型语言模型（LLMs）为模拟在线社区和社交媒体提供了新的途径。潜在应用包括测试内容推荐算法的设计，以及评估内容政策和干预措施的效果。然而，使用LLMs模拟不同用户之间对话的有效性在很大程度上未经检验。本研究评估了LLMs是否能够令人信服地模仿社交媒体上的人类群体对话。我们从Reddit收集了真实的人类对话，并使用两个LLMs（Llama 3 70B和GPT-4o）生成了相同主题的人工对话。当并排呈现给研究参与者时，LLM生成的对话有39%的时间被误认为是人类创建的内容。特别是，在评估Llama 3生成的对话时，参与者仅在56%的时间内正确识别出它们是AI生成的，几乎与随机猜测无异。我们的研究表明，LLMs可以生成足够真实的社交媒体对话，以至于在阅读时可以欺骗人类，这既突出了社会模拟的潜在前景，也发出了关于LLMs可能被滥用于生成新的不真实的社交媒体内容的警告。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在模拟社交媒体多用户对话方面的能力。现有方法缺乏对LLM生成对话真实性的有效评估，难以判断其是否能有效替代真实人类对话，这限制了LLM在社会模拟、内容推荐算法测试等领域的应用。现有方法的痛点在于缺乏可信的评估指标和实验设计，难以量化LLM生成对话与真实对话的差异。

核心思路：论文的核心思路是通过图灵测试的变体——集体图灵测试，来评估LLM生成对话的真实性。具体而言，研究人员将LLM生成的对话与真实的人类对话混合，然后让人类参与者判断哪些对话是由LLM生成的，哪些是由人类生成的。如果参与者难以区分，则表明LLM生成的对话具有较高的真实性。这种设计借鉴了图灵测试的思想，但将其扩展到多用户对话的场景。

技术框架：整体流程包括以下几个阶段：1) 数据收集：从Reddit收集真实的人类对话数据。2) 对话生成：使用Llama 3 70B和GPT-4o两个LLM生成与真实对话相同主题的人工对话。3) 实验设计：将LLM生成的对话与真实对话混合，并呈现给参与者。4) 评估：统计参与者正确识别LLM生成对话的比例，并进行统计分析。

关键创新：论文的关键创新在于将图灵测试的思想扩展到多用户对话的场景，提出了集体图灵测试的概念。这种方法提供了一种评估LLM在模拟社交互动方面能力的有效途径。此外，论文还通过实验验证了Llama 3等先进LLM在生成高真实度社交对话方面的潜力。

关键设计：实验的关键设计包括：1) 使用Reddit作为真实对话的数据来源，保证了对话的真实性和多样性。2) 选择Llama 3 70B和GPT-4o作为LLM，代表了当前最先进的语言模型。3) 采用并排比较的方式，让参与者直接比较LLM生成对话与真实对话的差异。4) 统计分析参与者的识别率，并与随机猜测的概率进行比较，以评估LLM的真实性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Llama 3生成的对话仅有56%的概率被识别为AI生成，接近随机猜测水平，显著低于GPT-4o的61%。这表明Llama 3在生成高真实度社交对话方面具有更强的能力。该结果突显了当前先进LLM在模拟人类社交互动方面的巨大潜力，同时也引发了对潜在滥用风险的关注。

🎯 应用场景

该研究成果可应用于在线社区模拟、社交媒体内容推荐算法测试、内容政策效果评估等领域。通过使用LLM模拟用户行为和对话，可以更高效地测试和优化相关算法和策略，降低实验成本。此外，该研究也提醒人们警惕LLM被滥用于生成虚假社交媒体内容，从而影响舆论和公众认知。

📄 摘要（原文）

Large Language Models (LLMs) offer new avenues to simulate online communities and social media. Potential applications range from testing the design of content recommendation algorithms to estimating the effects of content policies and interventions. However, the validity of using LLMs to simulate conversations between various users remains largely untested. We evaluated whether LLMs can convincingly mimic human group conversations on social media. We collected authentic human conversations from Reddit and generated artificial conversations on the same topic with two LLMs: Llama 3 70B and GPT-4o. When presented side-by-side to study participants, LLM-generated conversations were mistaken for human-created content 39\% of the time. In particular, when evaluating conversations generated by Llama 3, participants correctly identified them as AI-generated only 56\% of the time, barely better than random chance. Our study demonstrates that LLMs can generate social media conversations sufficiently realistic to deceive humans when reading them, highlighting both a promising potential for social simulation and a warning message about the potential misuse of LLMs to generate new inauthentic social media content.

The Collective Turing Test: Large Language Models Can Generate Realistic Multi-User Discussions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理