PICon: A Multi-Turn Interrogation Framework for Evaluating Persona Agent Consistency

📄 arXiv: 2603.25620v1 📥 PDF

作者: Minseo Kim, Sujeong Im, Junseong Choi, Junhee Lee, Chaeeun Shim, Edward Choi

分类: cs.CL

发布日期: 2026-03-26

备注: 20 pages, 6 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PICon:多轮审讯框架,评估Persona Agent的一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Persona Agent 一致性评估 多轮对话 大型语言模型 审讯方法

📋 核心要点

  1. 现有Persona Agent缺乏系统性评估方法,难以保证其在多轮交互中的一致性和准确性。
  2. PICon框架通过模拟审讯,利用逻辑链式提问探测Persona Agent在内部、外部和重测一致性上的缺陷。
  3. 实验表明,即使是先前认为一致性高的Persona Agent,在PICon的评估下也未能达到人类水平,暴露了潜在问题。

📝 摘要(中文)

基于大型语言模型(LLM)的Persona Agent正迅速被应用于各个领域,作为人类参与者的可扩展替代品。然而,目前缺乏系统性的方法来验证Persona Agent的响应在整个交互过程中是否保持一致且不包含事实性错误。本文借鉴审讯方法中的一个原则:无论虚构的身份多么复杂,系统性的审讯都会暴露其矛盾之处。基于此,我们提出了PICon,一个通过逻辑链式多轮提问来探测Persona Agent的评估框架。PICon从三个核心维度评估一致性:内部一致性(避免自我矛盾)、外部一致性(与现实世界事实对齐)和重测一致性(重复测试下的稳定性)。通过评估七组Persona Agent以及63名真实人类参与者,我们发现即使是先前报告中高度一致的系统,也未能在这三个维度上达到人类基线水平,在链式提问下暴露了矛盾和回避性回答。这项工作为评估Persona Agent提供了一个概念基础和实践方法,以便在信任它们作为人类参与者的替代品之前进行评估。我们提供了源代码和交互式演示。

🔬 方法详解

问题定义:现有基于LLM的Persona Agent被广泛应用,但缺乏有效手段验证其在多轮对话中是否保持人设一致,以及是否会产生与事实相悖的回答。现有方法难以发现Agent在复杂交互中的潜在矛盾,无法保证其可靠性。

核心思路:借鉴审讯方法,通过精心设计的、逻辑关联的多轮问题,逐步挖掘Persona Agent的潜在矛盾和不一致性。审讯的本质在于,即使是精心编造的谎言,在持续追问下也容易露出破绽。

技术框架:PICon框架包含三个核心模块:1) 问题生成模块:根据预设的Persona和知识库,生成一系列逻辑关联的多轮问题;2) Agent响应模块:Persona Agent接收问题并生成回答;3) 一致性评估模块:评估Agent的回答在内部一致性(self-contradiction)、外部一致性(factual accuracy)和重测一致性(stability under repetition)三个维度上的表现。

关键创新:PICon的核心创新在于将审讯的理念引入Persona Agent的评估。与传统的单轮或少量交互的评估方法不同,PICon通过多轮链式提问,能够更有效地暴露Agent在长期交互中的不一致性问题。此外,PICon框架同时考虑了内部、外部和重测一致性,提供了一个更全面的评估视角。

关键设计:问题生成模块采用基于规则和基于LLM的方法,确保问题具有逻辑性和多样性。一致性评估模块采用多种指标,包括基于规则的检查、基于LLM的推理和人工评估,以保证评估的准确性和可靠性。具体参数设置和损失函数未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是先前被认为具有较高一致性的Persona Agent,在PICon框架的评估下,其内部一致性、外部一致性和重测一致性均未能达到人类水平。具体性能数据和提升幅度未在摘要中给出,属于未知信息。该研究揭示了现有Persona Agent在多轮交互中存在的潜在问题。

🎯 应用场景

PICon框架可应用于各种需要Persona Agent的场景,例如客户服务、教育辅导、虚拟助手等。通过PICon的评估,可以有效提高Persona Agent的可靠性和安全性,避免因Agent的不一致性或错误回答而造成的负面影响。该研究为构建更值得信赖的AI系统奠定了基础。

📄 摘要(原文)

Large language model (LLM)-based persona agents are rapidly being adopted as scalable proxies for human participants across diverse domains. Yet there is no systematic method for verifying whether a persona agent's responses remain free of contradictions and factual inaccuracies throughout an interaction. A principle from interrogation methodology offers a lens: no matter how elaborate a fabricated identity, systematic interrogation will expose its contradictions. We apply this principle to propose PICon, an evaluation framework that probes persona agents through logically chained multi-turn questioning. PICon evaluates consistency along three core dimensions: internal consistency (freedom from self-contradiction), external consistency (alignment with real-world facts), and retest consistency (stability under repetition). Evaluating seven groups of persona agents alongside 63 real human participants, we find that even systems previously reported as highly consistent fail to meet the human baseline across all three dimensions, revealing contradictions and evasive responses under chained questioning. This work provides both a conceptual foundation and a practical methodology for evaluating persona agents before trusting them as substitutes for human participants. We provide the source code and an interactive demo at: https://kaist-edlab.github.io/picon/