X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

作者: Weiqi Wu, Hongqiu Wu, Hai Zhao

分类: cs.CL, cs.AI

发布日期: 2024-08-19 (更新: 2025-05-29)

备注: Accepted to ACL 2025 Main Conference

💡 一句话要点

X-TURING：面向长期对话Agent的增强型高效图灵测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图灵测试 对话Agent 大型语言模型 长期对话 人机交互

📋 核心要点

传统图灵测试在评估LLM的长期对话能力方面存在局限，主要体现在交互方式单一和人工参与度高。
X-TURING通过引入爆发式对话和伪对话历史，模拟长期对话场景，降低人工成本，提升评估效率。
实验结果表明，LLM在长期对话中保持一致性存在挑战，X-TURING能够有效评估这一能力。

📝 摘要（中文）

本文提出X-TURING，旨在增强传统图灵测试，使其更适用于评估大型语言模型（LLMs）在复杂和长期交互中的表现。传统图灵测试每次交互仅限一条消息，且需要持续的人工参与，无法反映自然的对话风格。X-TURING引入“爆发式对话”模式，允许连续消息的动态交换。同时，通过迭代生成模拟Agent与人类长期交互的伪对话历史，减少人工工作量。Agent在伪对话历史的基础上，与真人进行简短对话，并与真人-真人对话配对，通过问卷进行判断。论文提出X-Turn Pass-Rate指标，评估LLMs在不同对话轮次中的拟人程度。实验表明，GPT-4等LLMs在初始阶段表现良好，但在对话进行中性能下降，突显了长期保持一致性的困难。

🔬 方法详解

问题定义：现有图灵测试每次仅允许单轮对话，无法模拟真实场景下连续多轮的对话模式，难以评估对话Agent的长期一致性和连贯性。此外，传统图灵测试需要大量人工参与，成本高昂，效率低下。因此，需要一种更高效、更贴近真实对话场景的评估方法，以衡量对话Agent的长期对话能力。

核心思路：X-TURING的核心思路是通过引入“爆发式对话”和“伪对话历史”来模拟长期对话场景。爆发式对话允许Agent和人类进行连续多轮的对话，更贴近真实对话模式。伪对话历史则通过让Agent与自身或其他Agent进行对话，生成大量的对话历史，减少人工参与，降低评估成本。

技术框架：X-TURING的整体流程如下：1) 使用LLM生成伪对话历史，模拟Agent与人类的长期交互；2) Agent基于伪对话历史与真人进行简短对话；3) 将Agent-人类对话与真人-真人对话配对，由评估者通过问卷进行判断；4) 使用X-Turn Pass-Rate指标评估Agent在不同对话轮次中的拟人程度。

关键创新：X-TURING的关键创新在于：1) 引入了“爆发式对话”模式，允许连续多轮对话，更贴近真实对话场景；2) 提出了“伪对话历史”的概念，通过模拟Agent与自身的长期交互，减少人工参与，降低评估成本；3) 定义了“X-Turn Pass-Rate”指标，用于评估Agent在不同对话轮次中的拟人程度。

关键设计：伪对话历史的生成方式未知，论文中未详细描述。X-Turn Pass-Rate的计算方式未知，论文中未详细描述。问卷的具体内容未知，论文中未详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPT-4等LLM在初始对话轮次中表现良好，但在对话轮次增加后，X-Turn Pass-Rate显著下降，表明LLM在长期对话中保持一致性存在挑战。具体而言，GPT-4在3轮对话中的Pass Rate为51.9%，在10轮对话中下降至38.9%。该结果突显了X-TURING在评估长期对话能力方面的有效性。

🎯 应用场景

X-TURING可用于评估各种对话Agent，特别是基于LLM的对话Agent在长期对话中的表现。该方法有助于识别Agent在长期对话中存在的问题，例如一致性问题和知识遗忘问题，从而指导Agent的改进和优化。此外，X-TURING还可以应用于人机交互系统的评估，提升用户体验。

📄 摘要（原文）

The Turing test examines whether AIs exhibit human-like behaviour in natural language conversations. The traditional setting limits each participant to one message at a time and requires constant human participation. This fails to reflect a natural conversational style and hinders the evaluation of dialogue agents based on Large Language Models (LLMs) in complex and prolonged interactions. This paper proposes \textbf{\textsc{X-Turing}}, which enhances the original test with a \textit{burst dialogue} pattern, allowing more dynamic exchanges using consecutive messages. It further reduces human workload by iteratively generating dialogues that simulate the long-term interaction between the agent and a human to compose the majority of the test process. With the \textit{pseudo-dialogue} history, the agent then engages in a shorter dialogue with a real human, which is paired with a human-human conversation on the same topic to be judged using questionnaires. We introduce the \textit{X-Turn Pass-Rate} metric to assess the human likeness of LLMs across varying durations. While LLMs like GPT-4 initially perform well, achieving pass rates of 51.9\% and 38.9\% during 3 turns and 10 turns of dialogues respectively, their performance drops as the dialogue progresses, which underscores the difficulty in maintaining consistency in the long term.

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理