Beyond Cooperative Simulators: Generating Realistic User Personas for Robust Evaluation of LLM Agents

📄 arXiv: 2605.12894v1 📥 PDF

作者: Harshita Chopra, Kshitish Ghate, Aylin Caliskan, Tadayoshi Kohno, Chirag Shah, Natasha Jaques

分类: cs.AI, cs.CL

发布日期: 2026-05-13

备注: Preprint under review


💡 一句话要点

提出Persona Policies (PPol)以生成更真实的用户角色,提升LLM Agent的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 用户模拟器 角色扮演 进化搜索 鲁棒性评估

📋 核心要点

  1. 现有LLM Agent评估依赖的模拟器过于理想化,无法捕捉真实用户行为的多样性,导致Agent在实际应用中表现不佳。
  2. 论文提出Persona Policies (PPol),通过进化搜索自动生成多样化且类人的用户角色,增强模拟器的真实性。
  3. 实验表明,使用PPol训练的Agent在面对真实用户行为时,任务成功率显著提升,验证了该方法的有效性。

📝 摘要(中文)

大型语言模型(LLM)Agent越来越多地部署在与各种用户交互的环境中,包括那些表达不清、不耐烦或不愿分享信息的用户。然而,大规模收集真实交互数据成本高昂。目前领域内转向使用基于LLM的用户模拟器作为替代,但这些模拟器继承了底层模型的行为:合作且同质化。因此,在模拟中表现良好的Agent在真实用户多样化的交流模式下往往会失败。为了缩小这一差距,我们引入了Persona Policies (PPol),一个即插即用的控制层,可以在保留原始任务目标的同时,诱导用户模拟器产生更真实的的行为变化。我们没有手工设计角色,而是将角色生成视为一个LLM驱动的进化程序搜索,优化一个Python生成器,以发现行为并将其转化为保持任务一致性的角色扮演策略。候选生成器由一个多目标适应度评分指导,该评分结合了人类相似性和对人类行为模式的广泛覆盖。一旦优化,生成器会为领域中的任何任务生成多样化且类人的角色群体。在tau^2-bench零售和航空领域,进化的PPol程序比基线模拟器产生了33-62%的绝对适应度提升。在一项盲测评估中,标注者认为PPol条件下的用户是人类的概率为80.4%,接近真实人类轨迹,几乎是基线模拟器的两倍。使用PPol训练的Agent对具有挑战性的、分布外的行为更具鲁棒性,相对于仅在现有模拟交互上训练,任务成功率提高了+17%。这为加强基于模拟器的评估和训练提供了一种新方法,而无需更改任务或奖励。

🔬 方法详解

问题定义:现有LLM Agent的评估和训练依赖于用户模拟器,但这些模拟器通常基于LLM,继承了LLM的合作性和同质性,无法模拟真实世界中用户行为的多样性和复杂性。这导致Agent在模拟环境中表现良好,但在实际部署中遇到各种挑战性用户行为时,性能显著下降。因此,需要一种方法来生成更真实、更具挑战性的用户角色,以提高Agent的鲁棒性。

核心思路:论文的核心思路是将用户角色生成视为一个优化问题,通过进化搜索自动发现能够生成多样化用户行为的策略。这种方法避免了手动设计角色的困难和主观性,同时能够探索更广泛的行为空间。通过优化一个Python生成器,使其能够生成既符合任务目标又具有人类行为特征的角色扮演策略,从而提高用户模拟器的真实性和多样性。

技术框架:PPol的技术框架主要包括以下几个阶段:1) 角色生成器初始化:使用LLM初始化一个Python代码生成器,该生成器能够根据给定的任务生成用户角色扮演策略。2) 进化搜索:使用进化算法(例如遗传算法)搜索最优的角色生成器。每个候选生成器都会生成一组用户角色,并在模拟环境中与Agent进行交互。3) 适应度评估:根据多目标适应度函数评估每个候选生成器的性能。适应度函数综合考虑了用户角色的人类相似性和行为多样性。4) 选择和变异:选择适应度高的生成器,并对其进行变异(例如代码修改)以产生新的候选生成器。5) 迭代优化:重复步骤2-4,直到找到最优的角色生成器。

关键创新:PPol的关键创新在于使用LLM驱动的进化程序搜索来自动生成用户角色。与传统的手动设计方法相比,PPol能够探索更广泛的行为空间,发现更具挑战性和真实性的用户行为。此外,PPol采用多目标适应度函数,综合考虑了用户角色的人类相似性和行为多样性,从而保证了生成角色的质量。

关键设计:PPol的关键设计包括:1) 角色生成器的表示:使用Python代码作为角色生成器的表示,允许生成复杂的行为策略。2) 多目标适应度函数:适应度函数包括两个主要部分:人类相似性评分和行为多样性评分。人类相似性评分通过人工评估来衡量生成角色的行为是否与真实人类相似。行为多样性评分通过计算生成角色行为的覆盖率来衡量生成角色的多样性。3) 进化算法:使用遗传算法作为进化搜索算法,通过选择、交叉和变异等操作来优化角色生成器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在tau^2-bench零售和航空领域,进化的PPol程序比基线模拟器产生了33-62%的绝对适应度提升。在一项盲测评估中,标注者认为PPol条件下的用户是人类的概率为80.4%,接近真实人类轨迹,几乎是基线模拟器的两倍。使用PPol训练的Agent对具有挑战性的、分布外的行为更具鲁棒性,相对于仅在现有模拟交互上训练,任务成功率提高了+17%。

🎯 应用场景

该研究成果可广泛应用于LLM Agent的开发和评估中,尤其是在需要与用户进行复杂交互的场景,如客户服务、在线教育、智能助手等。通过使用PPol生成更真实的用户角色,可以更有效地评估和训练Agent的鲁棒性,提高其在实际应用中的性能和用户满意度。此外,该方法还可以用于生成对抗样本,帮助Agent更好地应对恶意用户的攻击。

📄 摘要(原文)

Large Language Model (LLM) agents are increasingly deployed in settings where they interact with a wide variety of people, including users who are unclear, impatient, or reluctant to share information. However, collecting real interaction data at scale remains expensive. The field has turned to LLM-based user simulators as stand-ins, but these simulators inherit the behavior of their underlying models: cooperative and homogeneous. As a result, agents that appear strong in simulation often fail under the unseen, diverse communication patterns of real users. To narrow this gap, we introduce Persona Policies (PPol), a plug-and-play control layer that induces realistic behavioral variation in user simulators while preserving the original task goals. Rather than hand-crafting personas, we cast persona generation as an LLM-driven evolutionary program search that optimizes a Python generator to discover behaviors and translate them into task-preserving roleplay policies. Candidate generators are guided by a multi-objective fitness score combining human-likeness with broad coverage of human behavioral patterns. Once optimized, the generator produces a diverse population of human-like personas for any task in the domain. Across tau^2-bench retail and airline domains, evolved PPol programs yield 33-62% absolute gains in fitness score over the baseline simulator. In a blinded evaluation, annotators rated PPol-conditioned users as human 80.4% of the time, close to real human traces and nearly twice as frequently as baseline simulators. Agents trained with PPol are more robust to challenging, out-of-distribution behaviors, improving task success by +17% relative to training only on existing simulated interactions. This offers a novel approach to strengthen simulator-based evaluation and training without changing tasks or rewards.