SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation
作者: Han Luo, Guy Laban
分类: cs.CL, cs.MA
发布日期: 2026-04-10
备注: Accepted to Findings of the Association for Computational Linguistics (ACL 2026). Our code and data are available at https://github.com/lhannnn/SPASM
🔗 代码/项目: GITHUB
💡 一句话要点
SPASM:稳定角色驱动的Agent模拟框架,用于多轮对话生成
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轮对话生成 角色扮演 Agent模拟 上下文投影 语言模型
📋 核心要点
- 现有LLM在多轮对话中存在角色漂移、角色混淆和“回声”等问题,影响对话质量和一致性。
- SPASM框架通过角色创建、对话生成和终止检测三个模块,以及自我中心上下文投影(ECP)技术,提升对话稳定性。
- 实验表明,ECP能有效减少角色漂移,消除回声现象,并能恢复角色结构,提升对话质量。
📝 摘要(中文)
大型语言模型越来越多地应用于多轮对话场景,如辅导、支持和咨询,其可靠性取决于在长时间范围内保持一致的角色、身份和目标。当LLM用于生成合成对话以进行训练和评估时,这一要求至关重要,因为LLM之间的对话会累积身份相关的失败,如角色漂移、角色混淆和“回声”(一个agent逐渐模仿其伙伴)。我们引入了SPASM(用于多轮对话生成的稳定角色驱动的Agent模拟),这是一个模块化的、稳定性优先的框架,它将模拟分解为(i)通过模式采样、合理性验证和自然语言角色构建的角色创建,(ii)客户端-响应者对话生成,以及(iii)用于连贯停止的终止检测。为了在不改变模型权重的情况下提高长期稳定性,我们提出了自我中心上下文投影(ECP):对话历史以与视角无关的表示形式存储,并在生成之前确定性地投影到每个agent的自我中心视角中。在三个LLM骨干网络(GPT-4o-mini、DeepSeek-V3.2、Qwen-Plus)和九个客户端-响应者配对中,我们构建了一个包含4,500个角色和45,000个对话的数据集(500个角色X每个配对10个对话)。消融实验表明,ECP显著减少了角色漂移,并且在人工验证下,消除了回声;嵌入分析恢复了角色结构,并揭示了强大的响应者驱动的交互几何。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮对话生成中出现的角色不一致性问题,具体表现为角色漂移、角色混淆和“回声”现象。现有方法难以保证对话过程中角色身份的稳定性和一致性,尤其是在长时间对话中,容易出现角色特征逐渐丧失或相互模仿的情况。
核心思路:论文的核心思路是构建一个稳定性优先的Agent模拟框架,通过模块化的设计和自我中心上下文投影(ECP)技术,显式地维护和强化每个Agent的角色身份。ECP将对话历史以视角无关的方式存储,并在生成回复前将其投影到每个Agent的自我中心视角,从而避免信息混淆和角色模仿。
技术框架:SPASM框架包含三个主要模块:角色创建、客户端-响应者对话生成和终止检测。角色创建模块负责生成具有明确身份和背景的角色;对话生成模块利用LLM进行多轮对话;终止检测模块判断对话是否应该结束。ECP技术贯穿于对话生成模块,用于维护角色身份的一致性。
关键创新:论文的关键创新在于提出了自我中心上下文投影(ECP)技术。与直接使用完整的对话历史作为上下文不同,ECP首先将对话历史转换为与视角无关的表示,然后根据每个Agent的视角进行投影,从而避免了信息混淆和角色模仿。这种方法能够在不改变模型权重的情况下,显著提高对话的稳定性。
关键设计:ECP的关键设计在于如何将对话历史转换为视角无关的表示,以及如何根据Agent的视角进行投影。具体实现细节在论文中未详细说明,但可以推测可能涉及到对对话历史进行语义分析,提取关键信息,并根据Agent的角色特征进行加权和过滤。此外,角色创建模块中,模式采样、合理性验证和自然语言角色构建的具体方法也影响着最终的对话质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SPASM框架中的ECP技术能够显著减少角色漂移,消除回声现象。在人工评估中,使用ECP生成的对话在角色一致性方面表现更好。此外,嵌入分析表明,ECP能够更好地恢复角色结构,并揭示了响应者驱动的交互几何,表明响应者在对话中起着更重要的作用。论文构建了一个包含4,500个角色和45,000个对话的大规模数据集。
🎯 应用场景
该研究成果可应用于各种需要稳定角色扮演的多轮对话场景,如智能客服、在线教育、心理咨询等。通过SPASM框架,可以生成更真实、更连贯的对话数据,用于训练和评估LLM,提升其在实际应用中的性能和可靠性。此外,该方法还可以用于构建虚拟角色扮演游戏,提供更沉浸式的用户体验。
📄 摘要(原文)
Large language models are increasingly deployed in multi-turn settings such as tutoring, support, and counseling, where reliability depends on preserving consistent roles, personas, and goals across long horizons. This requirement becomes critical when LLMs are used to generate synthetic dialogues for training and evaluation, since LLM--LLM conversations can accumulate identity-related failures such as persona drift, role confusion, and "echoing", where one agent gradually mirrors its partner. We introduce SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), a modular, stability-first framework that decomposes simulation into (i) persona creation via schema sampling, plausibility validation, and natural-language persona crafting, (ii) Client--Responder dialogue generation, and (iii) termination detection for coherent stopping. To improve long-horizon stability without changing model weights, we propose Egocentric Context Projection (ECP): dialogue history is stored in a perspective-agnostic representation and deterministically projected into each agent's egocentric view before generation. Across three LLM backbones (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) and nine Client--Responder pairings, we construct a dataset of 4,500 personas and 45,000 conversations (500 personas X 10 conversations per pairing). Ablations show ECP substantially reduces persona drift and, under human validation, eliminates echoing; embedding analyses recover persona structure and reveal strong responder-driven interaction geometry. Our code is available at https://github.com/lhannnn/SPASM.