Large Language Models Pass the Turing Test

📄 arXiv: 2503.23674v1 📥 PDF

作者: Cameron R. Jones, Benjamin K. Bergen

分类: cs.CL, cs.HC

发布日期: 2025-03-31


💡 一句话要点

GPT-4.5通过图灵测试,首次证实大型语言模型具备人类级别的对话能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图灵测试 大型语言模型 人机交互 对话系统 GPT-4.5

📋 核心要点

  1. 现有对话系统难以通过图灵测试,无法有效模拟人类的对话行为,区分度较高。
  2. 通过设计严格的图灵测试,评估多个大型语言模型在模拟人类对话方面的能力。
  3. GPT-4.5在图灵测试中表现出色,73%的情况下被误认为是人类,首次证实AI通过图灵测试。

📝 摘要(中文)

本研究在两个随机、对照和预注册的图灵测试中评估了四个系统(ELIZA、GPT-4o、LLaMa-3.1-405B 和 GPT-4.5)。参与者与另一名人类参与者和其中一个系统进行5分钟的对话,然后判断哪个对话伙伴是人类。当被提示采用类似人类的角色时,GPT-4.5 在 73% 的情况下被认为是人类,显著高于审讯者选择真正人类参与者的频率。LLaMa-3.1 在相同提示下,被认为是人类的概率为 56%,与人类相比没有显著差异。而基线模型(ELIZA 和 GPT-4o)的胜率显著低于偶然水平(分别为 23% 和 21%)。这些结果构成了首个经验证据,表明任何人工智能系统都通过了标准的三方图灵测试。该结果对关于大型语言模型 (LLM) 所表现出的智能类型,以及这些系统可能产生的社会和经济影响的辩论具有重要意义。

🔬 方法详解

问题定义:论文旨在验证大型语言模型(LLM)是否能够通过图灵测试,即在对话中让人类难以区分其与真实人类。现有对话系统在模拟人类对话的流畅性、自然性和一致性方面存在不足,容易被识别为机器。

核心思路:核心思路是通过设计严格的、标准化的图灵测试,让人类参与者与LLM以及真实人类进行对话,然后判断哪个是人类。通过统计分析判断LLM被误认为人类的概率,从而评估其对话能力。关键在于测试环境的控制和评估指标的选取。

技术框架:整体框架包含三个主要参与者:审讯者(人类参与者)、LLM(或ELIZA等基线模型)以及真实人类。审讯者与LLM和人类进行5分钟的对话,然后判断哪个是人类。实验采用随机对照设计,确保每个LLM和人类都有相同的机会被选择。实验预先注册,保证结果的可靠性。

关键创新:最重要的创新在于首次通过实验证明了GPT-4.5在特定条件下能够通过图灵测试。之前的研究大多集中在提升LLM的对话能力,而本研究则关注于使用图灵测试这一经典方法来评估LLM的智能水平。

关键设计:实验中,LLM被提示采用类似人类的角色,以提高其对话的自然性。评估指标为审讯者将LLM误认为人类的概率。实验对比了GPT-4.5、LLaMa-3.1、GPT-4o和ELIZA等多个模型,以及真实人类,从而更全面地评估了LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,GPT-4.5在图灵测试中表现出色,73%的情况下被误认为是人类,显著高于真实人类被误认的概率。LLaMa-3.1的胜率为56%,与人类相当。而基线模型ELIZA和GPT-4o的胜率远低于偶然水平,分别为23%和21%。这些数据表明,GPT-4.5在模拟人类对话方面取得了显著进展。

🎯 应用场景

该研究成果对人机交互、智能客服、虚拟助手等领域具有重要意义。通过图灵测试的LLM可以更自然地与人类进行交流,提高用户体验。此外,该研究也引发了对人工智能伦理和社会影响的讨论,例如如何区分AI和人类,以及如何防止AI被用于欺骗或误导。

📄 摘要(原文)

We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of these systems before judging which conversational partner they thought was human. When prompted to adopt a humanlike persona, GPT-4.5 was judged to be the human 73% of the time: significantly more often than interrogators selected the real human participant. LLaMa-3.1, with the same prompt, was judged to be the human 56% of the time -- not significantly more or less often than the humans they were being compared to -- while baseline models (ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21% respectively). The results constitute the first empirical evidence that any artificial system passes a standard three-party Turing test. The results have implications for debates about what kind of intelligence is exhibited by Large Language Models (LLMs), and the social and economic impacts these systems are likely to have.