TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation

📄 arXiv: 2510.25536v2 📥 PDF

作者: Bangde Du, Minghao Guo, Songming He, Ziyi Ye, Xi Zhu, Weihang Su, Shuqi Zhu, Yujia Zhou, Yongfeng Zhang, Qingyao Ai, Yiqun Liu

分类: cs.CL

发布日期: 2025-10-29 (更新: 2025-10-30)

备注: Main paper: 11 pages, 3 figures, 6 tables. Appendix: 28 pages. Bangde Du and Minghao Guo contributed equally. Corresponding authors: Ziyi Ye (ziyiye@fudan.edu.cn), Qingyao Ai (aiqy@tsinghua.edu.cn)


💡 一句话要点

TwinVoice:通过LLM角色模拟构建数字孪生的多维度基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 角色模拟 数字孪生 基准测试 多维度评估

📋 核心要点

  1. 现有LLM角色模拟评估依赖合成对话,缺乏系统框架和能力需求分析,难以反映真实场景。
  2. TwinVoice基准测试从社交、人际和叙事三个维度评估LLM的角色模拟能力。
  3. 实验表明,现有LLM在角色模拟方面仍有不足,尤其在句法风格和记忆回忆方面与人类存在差距。

📝 摘要(中文)

大型语言模型(LLMs)展现出类人的涌现能力,并日益被视为模拟个人沟通风格、行为倾向和人格特质的基础。然而,目前对基于LLM的角色模拟的评估仍然有限:大多数依赖于合成对话,缺乏系统的框架,并且缺乏对能力需求的分析。为了解决这些局限性,我们推出了TwinVoice,这是一个全面的基准,用于评估跨越不同真实世界环境的角色模拟。TwinVoice包含三个维度:社交角色(公共社交互动)、人际角色(私人对话)和叙事角色(基于角色的表达)。它进一步将LLM性能的评估分解为六个基本能力,包括意见一致性、记忆回忆、逻辑推理、词汇保真度、角色语气和句法风格。实验结果表明,虽然先进的模型在角色模拟中实现了中等的准确性,但它们仍然缺乏句法风格和记忆回忆等能力。因此,LLM实现的平均性能仍然远低于人类基线。

🔬 方法详解

问题定义:现有的大型语言模型在角色模拟方面表现出潜力,但缺乏一个全面、系统的评估基准。现有的评估方法主要依赖于合成对话,无法充分捕捉真实世界场景中角色模拟的复杂性,并且缺乏对LLM所需能力的细致分析。因此,如何构建一个能够全面评估LLM在不同维度和能力上的角色模拟性能的基准测试成为了一个关键问题。

核心思路:TwinVoice的核心思路是通过构建一个多维度的基准测试,全面评估LLM在角色模拟方面的能力。该基准测试涵盖了社交角色、人际角色和叙事角色三个维度,并进一步将LLM的性能评估分解为意见一致性、记忆回忆、逻辑推理、词汇保真度、角色语气和句法风格六个基本能力。通过这种多维度、多能力的评估方式,可以更全面地了解LLM在角色模拟方面的优势和不足。

技术框架:TwinVoice基准测试的整体框架包括三个主要维度:社交角色、人际角色和叙事角色。社交角色涉及公共社交互动,例如在社交媒体上的发言;人际角色涉及私人对话,例如朋友之间的聊天;叙事角色涉及基于角色的表达,例如小说中的人物对话。每个维度都包含多个任务,用于评估LLM在不同场景下的角色模拟能力。此外,TwinVoice还定义了六个基本能力,用于更细粒度地评估LLM的性能。

关键创新:TwinVoice的关键创新在于其多维度、多能力的评估框架。与以往的评估方法相比,TwinVoice不仅考虑了不同场景下的角色模拟,还关注了LLM在不同能力上的表现。这种全面的评估方式可以更准确地反映LLM在角色模拟方面的真实水平,并为未来的研究提供更清晰的方向。

关键设计:TwinVoice的关键设计包括:1) 三个维度的选择,覆盖了角色模拟的不同方面;2) 六个基本能力的定义,细化了LLM的性能评估;3) 任务的设计,确保能够有效地评估LLM在不同维度和能力上的表现。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的LLM模型和评估任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然先进的LLM在角色模拟中取得了中等水平的准确性,但在句法风格和记忆回忆等能力上仍有不足,与人类基线相比仍有较大差距。这表明,现有LLM在角色模拟方面仍有很大的提升空间,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于数字孪生、虚拟助手、游戏AI等领域。通过提升LLM的角色模拟能力,可以创建更逼真、更具个性化的虚拟角色,从而增强用户体验,并为人机交互带来新的可能性。未来,该研究还可以推动LLM在心理咨询、教育等领域的应用。

📄 摘要(原文)

Large Language Models (LLMs) are exhibiting emergent human-like abilities and are increasingly envisioned as the foundation for simulating an individual's communication style, behavioral tendencies, and personality traits. However, current evaluations of LLM-based persona simulation remain limited: most rely on synthetic dialogues, lack systematic frameworks, and lack analysis of the capability requirement. To address these limitations, we introduce TwinVoice, a comprehensive benchmark for assessing persona simulation across diverse real-world contexts. TwinVoice encompasses three dimensions: Social Persona (public social interactions), Interpersonal Persona (private dialogues), and Narrative Persona (role-based expression). It further decomposes the evaluation of LLM performance into six fundamental capabilities, including opinion consistency, memory recall, logical reasoning, lexical fidelity, persona tone, and syntactic style. Experimental results reveal that while advanced models achieve moderate accuracy in persona simulation, they still fall short of capabilities such as syntactic style and memory recall. Consequently, the average performance achieved by LLMs remains considerably below the human baseline.