X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

📄 arXiv: 2408.09853v2 📥 PDF

作者: Weiqi Wu, Hongqiu Wu, Hai Zhao

分类: cs.CL, cs.AI

发布日期: 2024-08-19 (更新: 2025-05-29)

备注: Accepted to ACL 2025 Main Conference


💡 一句话要点

X-TURING:面向长期对话Agent的增强型高效图灵测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图灵测试 对话Agent 大型语言模型 长期对话 人机交互

📋 核心要点

  1. 传统图灵测试在评估LLM的长期对话能力方面存在局限,主要体现在交互方式单一和人工参与度高。
  2. X-TURING通过引入爆发式对话和伪对话历史,模拟长期对话场景,降低人工成本,提升评估效率。
  3. 实验结果表明,LLM在长期对话中保持一致性存在挑战,X-TURING能够有效评估这一能力。

📝 摘要(中文)

本文提出X-TURING,旨在增强传统图灵测试,使其更适用于评估大型语言模型(LLMs)在复杂和长期交互中的表现。传统图灵测试每次交互仅限一条消息,且需要持续的人工参与,无法反映自然的对话风格。X-TURING引入“爆发式对话”模式,允许连续消息的动态交换。同时,通过迭代生成模拟Agent与人类长期交互的伪对话历史,减少人工工作量。Agent在伪对话历史的基础上,与真人进行简短对话,并与真人-真人对话配对,通过问卷进行判断。论文提出X-Turn Pass-Rate指标,评估LLMs在不同对话轮次中的拟人程度。实验表明,GPT-4等LLMs在初始阶段表现良好,但在对话进行中性能下降,突显了长期保持一致性的困难。

🔬 方法详解

问题定义:现有图灵测试每次仅允许单轮对话,无法模拟真实场景下连续多轮的对话模式,难以评估对话Agent的长期一致性和连贯性。此外,传统图灵测试需要大量人工参与,成本高昂,效率低下。因此,需要一种更高效、更贴近真实对话场景的评估方法,以衡量对话Agent的长期对话能力。

核心思路:X-TURING的核心思路是通过引入“爆发式对话”和“伪对话历史”来模拟长期对话场景。爆发式对话允许Agent和人类进行连续多轮的对话,更贴近真实对话模式。伪对话历史则通过让Agent与自身或其他Agent进行对话,生成大量的对话历史,减少人工参与,降低评估成本。

技术框架:X-TURING的整体流程如下:1) 使用LLM生成伪对话历史,模拟Agent与人类的长期交互;2) Agent基于伪对话历史与真人进行简短对话;3) 将Agent-人类对话与真人-真人对话配对,由评估者通过问卷进行判断;4) 使用X-Turn Pass-Rate指标评估Agent在不同对话轮次中的拟人程度。

关键创新:X-TURING的关键创新在于:1) 引入了“爆发式对话”模式,允许连续多轮对话,更贴近真实对话场景;2) 提出了“伪对话历史”的概念,通过模拟Agent与自身的长期交互,减少人工参与,降低评估成本;3) 定义了“X-Turn Pass-Rate”指标,用于评估Agent在不同对话轮次中的拟人程度。

关键设计:伪对话历史的生成方式未知,论文中未详细描述。X-Turn Pass-Rate的计算方式未知,论文中未详细描述。问卷的具体内容未知,论文中未详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4等LLM在初始对话轮次中表现良好,但在对话轮次增加后,X-Turn Pass-Rate显著下降,表明LLM在长期对话中保持一致性存在挑战。具体而言,GPT-4在3轮对话中的Pass Rate为51.9%,在10轮对话中下降至38.9%。该结果突显了X-TURING在评估长期对话能力方面的有效性。

🎯 应用场景

X-TURING可用于评估各种对话Agent,特别是基于LLM的对话Agent在长期对话中的表现。该方法有助于识别Agent在长期对话中存在的问题,例如一致性问题和知识遗忘问题,从而指导Agent的改进和优化。此外,X-TURING还可以应用于人机交互系统的评估,提升用户体验。

📄 摘要(原文)

The Turing test examines whether AIs exhibit human-like behaviour in natural language conversations. The traditional setting limits each participant to one message at a time and requires constant human participation. This fails to reflect a natural conversational style and hinders the evaluation of dialogue agents based on Large Language Models (LLMs) in complex and prolonged interactions. This paper proposes \textbf{\textsc{X-Turing}}, which enhances the original test with a \textit{burst dialogue} pattern, allowing more dynamic exchanges using consecutive messages. It further reduces human workload by iteratively generating dialogues that simulate the long-term interaction between the agent and a human to compose the majority of the test process. With the \textit{pseudo-dialogue} history, the agent then engages in a shorter dialogue with a real human, which is paired with a human-human conversation on the same topic to be judged using questionnaires. We introduce the \textit{X-Turn Pass-Rate} metric to assess the human likeness of LLMs across varying durations. While LLMs like GPT-4 initially perform well, achieving pass rates of 51.9\% and 38.9\% during 3 turns and 10 turns of dialogues respectively, their performance drops as the dialogue progresses, which underscores the difficulty in maintaining consistency in the long term.