PersonaTwin: A Multi-Tier Prompt Conditioning Framework for Generating and Evaluating Personalized Digital Twins

📄 arXiv: 2508.10906v1 📥 PDF

作者: Sihan Chen, John P. Lalor, Yi Yang, Ahmed Abbasi

分类: cs.CL

发布日期: 2025-07-30

备注: Presented at the Generation, Evaluation & Metrics (GEM) Workshop at ACL 2025


💡 一句话要点

PersonaTwin:多层提示调节框架,用于生成和评估个性化数字孪生

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数字孪生 大型语言模型 用户建模 提示工程 个性化 公平性评估 医疗保健

📋 核心要点

  1. 现有大型语言模型在用户建模方面存在不足,难以捕捉个体用户的多维细微差别。
  2. PersonaTwin框架通过多层提示调节,整合人口统计学、行为和心理测量数据,构建自适应数字孪生。
  3. 实验结果表明,PersonaTwin在模拟保真度上与oracle设置相当,且下游模型在预测和公平性指标上表现良好。

📝 摘要(中文)

大型语言模型(LLM)为用户建模和近似人类行为提供了新的可能性,但它们常常无法捕捉个体用户的多维细微差别。本文提出了PersonaTwin,一个多层提示调节框架,通过整合人口统计学、行为和心理测量数据来构建自适应数字孪生。我们使用一个包含超过8500人的医疗保健领域的综合数据集,系统地将PersonaTwin与标准LLM输出进行基准测试。我们严谨的评估将最先进的文本相似性指标与专门的人口统计学均等性评估相结合,确保生成的响应保持准确和无偏见。实验结果表明,我们的框架产生了与oracle设置相当的模拟保真度。此外,基于persona-twins训练的下游模型在预测和公平性指标方面,近似于基于个体训练的模型,这在基于GPT-4o和Llama的模型中均成立。总之,这些发现强调了基于LLM数字孪生方法在生成逼真且情感细腻的用户模拟方面的潜力,为个性化数字用户建模和行为分析提供了一个强大的工具。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在用户建模时,无法充分捕捉个体用户多维度特征的难题。现有方法难以模拟真实用户的行为模式和偏好,尤其是在需要个性化服务的场景下,例如医疗保健、推荐系统等。现有方法的痛点在于缺乏对用户多方面信息的有效整合和利用,导致生成的数字孪生不够逼真和个性化。

核心思路:PersonaTwin的核心思路是利用多层提示调节框架,将用户的多维度信息(包括人口统计学、行为和心理测量数据)融入到LLM的提示中,从而引导LLM生成更具个性化和真实感的数字孪生。通过这种方式,PersonaTwin能够更好地模拟用户的行为和偏好,提高用户建模的准确性和可靠性。

技术框架:PersonaTwin框架包含以下主要模块:1) 数据收集与预处理:收集用户的多维度数据,并进行清洗和格式化;2) 提示构建:根据用户数据,构建多层提示,包括人口统计学提示、行为提示和心理测量提示;3) LLM生成:将构建的提示输入到LLM中,生成用户的数字孪生;4) 评估:使用文本相似性指标和人口统计学均等性评估,评估生成的数字孪生的质量和公平性。

关键创新:PersonaTwin的关键创新在于其多层提示调节框架,该框架能够有效地整合用户的多维度信息,并将其融入到LLM的提示中。与传统的单层提示方法相比,PersonaTwin能够生成更具个性化和真实感的数字孪生。此外,PersonaTwin还采用了专门的人口统计学均等性评估,确保生成的响应保持无偏见。

关键设计:PersonaTwin的关键设计包括:1) 多层提示的构建策略,如何选择和组合不同类型的用户数据;2) 提示的格式和表达方式,如何有效地引导LLM生成期望的响应;3) 评估指标的选择和权重设置,如何综合评估数字孪生的质量和公平性。论文中使用了GPT-4o和Llama等不同的LLM模型,并针对不同的模型进行了参数调整和优化。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PersonaTwin框架生成的数字孪生在模拟保真度上与oracle设置相当。此外,基于persona-twins训练的下游模型在预测和公平性指标方面,近似于基于个体训练的模型,这在基于GPT-4o和Llama的模型中均成立。这些结果表明PersonaTwin能够有效地提高用户建模的准确性和可靠性。

🎯 应用场景

PersonaTwin可应用于个性化医疗、智能推荐系统、用户行为分析、社交媒体模拟等领域。通过构建更逼真和个性化的数字孪生,可以更好地理解用户需求,提供更精准的服务,并预测用户行为。该研究有助于推动人机交互、用户体验设计和人工智能的进步,具有重要的实际价值和未来影响。

📄 摘要(原文)

While large language models (LLMs) afford new possibilities for user modeling and approximation of human behaviors, they often fail to capture the multidimensional nuances of individual users. In this work, we introduce PersonaTwin, a multi-tier prompt conditioning framework that builds adaptive digital twins by integrating demographic, behavioral, and psychometric data. Using a comprehensive data set in the healthcare context of more than 8,500 individuals, we systematically benchmark PersonaTwin against standard LLM outputs, and our rigorous evaluation unites state-of-the-art text similarity metrics with dedicated demographic parity assessments, ensuring that generated responses remain accurate and unbiased. Experimental results show that our framework produces simulation fidelity on par with oracle settings. Moreover, downstream models trained on persona-twins approximate models trained on individuals in terms of prediction and fairness metrics across both GPT-4o-based and Llama-based models. Together, these findings underscore the potential for LLM digital twin-based approaches in producing realistic and emotionally nuanced user simulations, offering a powerful tool for personalized digital user modeling and behavior analysis.