PersonaTrace: Synthesizing Realistic Digital Footprints with LLM Agents
作者: Minjia Wang, Yunfeng Wang, Xiao Ma, Dexin Lv, Qifan Guo, Lynn Zheng, Benliang Wang, Lei Wang, Jiannan Li, Yongwei Xing, David Xu, Zheng Sun
分类: cs.CL
发布日期: 2026-03-12
备注: EACL 2026 Industry Track
💡 一句话要点
PersonaTrace:利用LLM智能体合成逼真数字足迹,解决数据稀缺问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数字足迹合成 大型语言模型 用户画像 数据增强 行为模拟
📋 核心要点
- 现有研究受限于数字足迹数据稀缺,阻碍了行为分析、个性化应用和机器学习模型训练。
- PersonaTrace利用LLM智能体,从用户画像出发,生成逼真且多样化的数字事件序列和相关数字制品。
- 实验表明,PersonaTrace生成的数据集更真实、多样,且微调模型在真实场景下表现更优。
📝 摘要(中文)
数字足迹(个体与数字系统交互的记录)对于研究行为、开发个性化应用和训练机器学习模型至关重要。然而,该领域的研究常常受到多样化且易于访问的数据稀缺性的阻碍。为了解决这一限制,我们提出了一种新颖的方法,利用大型语言模型(LLM)智能体来合成逼真的数字足迹。从结构化的用户画像开始,我们的方法生成多样且合理的的用户事件序列,最终产生相应的数字制品,例如电子邮件、消息、日历条目、提醒等。内在评估结果表明,生成的数据集比现有的基线更具多样性和真实性。此外,在我们的合成数据上微调的模型在真实世界的分布外任务上评估时,优于在其他合成数据集上训练的模型。
🔬 方法详解
问题定义:当前研究面临数字足迹数据稀缺的挑战,这限制了对用户行为的深入分析和个性化应用的开发。现有的数据合成方法可能无法生成足够真实和多样化的数据,导致模型在实际应用中的泛化能力不足。因此,需要一种能够生成高质量、多样化数字足迹数据的方法,以支持相关研究和应用。
核心思路:PersonaTrace的核心思路是利用大型语言模型(LLM)的强大生成能力,模拟真实用户的行为模式,从而合成逼真的数字足迹。通过构建基于用户画像的LLM智能体,可以生成一系列符合用户特征的事件序列,并将其转化为相应的数字制品。这种方法能够有效地解决数据稀缺问题,并为相关研究提供高质量的训练数据。
技术框架:PersonaTrace的技术框架主要包括以下几个阶段:1) 用户画像构建:根据给定的用户属性(如年龄、职业、兴趣等)构建结构化的用户画像。2) 事件序列生成:利用LLM智能体,基于用户画像生成一系列用户事件序列,例如发送邮件、创建日历事件、设置提醒等。3) 数字制品生成:将生成的事件序列转化为相应的数字制品,例如电子邮件、消息、日历条目等。4) 数据评估与优化:对生成的数据进行评估,并根据评估结果对LLM智能体进行优化,以提高数据的真实性和多样性。
关键创新:PersonaTrace的关键创新在于利用LLM智能体来模拟用户的行为模式,从而生成逼真的数字足迹。与传统的基于规则或统计模型的数据合成方法相比,PersonaTrace能够更好地捕捉用户行为的复杂性和多样性。此外,PersonaTrace还能够根据用户画像生成个性化的数字足迹,从而更好地满足不同应用的需求。
关键设计:PersonaTrace的关键设计包括:1) LLM智能体的选择与训练:选择合适的LLM模型,并使用真实数据进行微调,以提高其生成能力和真实性。2) 用户画像的构建:设计合理的用户画像结构,并尽可能包含丰富的用户属性信息。3) 事件序列生成策略:设计有效的事件序列生成策略,例如使用不同的提示词、调整生成参数等,以提高数据的多样性。4) 数字制品生成规则:制定清晰的数字制品生成规则,确保生成的数字制品符合实际场景。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PersonaTrace生成的数据集在多样性和真实性方面优于现有基线。在真实世界的分布外任务上,使用PersonaTrace合成数据微调的模型,性能优于使用其他合成数据集训练的模型。这表明PersonaTrace能够有效地生成高质量的数字足迹数据,并提高模型在实际应用中的泛化能力。
🎯 应用场景
PersonaTrace可广泛应用于行为分析、个性化推荐、安全检测等领域。例如,可以利用合成的数字足迹数据训练行为分析模型,从而更好地理解用户行为模式;可以利用合成数据评估个性化推荐系统的性能,并优化推荐策略;还可以利用合成数据训练安全检测模型,从而提高对恶意行为的识别能力。该研究有助于推动相关领域的发展,并为实际应用提供有力支持。
📄 摘要(原文)
Digital footprints (records of individuals' interactions with digital systems) are essential for studying behavior, developing personalized applications, and training machine learning models. However, research in this area is often hindered by the scarcity of diverse and accessible data. To address this limitation, we propose a novel method for synthesizing realistic digital footprints using large language model (LLM) agents. Starting from a structured user profile, our approach generates diverse and plausible sequences of user events, ultimately producing corresponding digital artifacts such as emails, messages, calendar entries, reminders, etc. Intrinsic evaluation results demonstrate that the generated dataset is more diverse and realistic than existing baselines. Moreover, models fine-tuned on our synthetic data outperform those trained on other synthetic datasets when evaluated on real-world out-of-distribution tasks.