A suite of LMs comprehend puzzle statements as well as humans
作者: Adele E Goldberg, Supantho Rakshit, Jennifer Hu, Kyle Mahowald
分类: cs.CL
发布日期: 2025-05-13
💡 一句话要点
大型语言模型在理解谜题语句方面与人类表现相当甚至超越
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言理解 大型语言模型 评估方法 语用推理 人类表现 模型性能 实验设计
📋 核心要点
- 现有研究声称大型语言模型在理解简单英语语句方面不如人类,但可能存在评估偏差。
- 通过限制重读等更自然的测试条件,重新评估人类和LLM在谜题语句理解上的表现。
- 实验表明,在更自然的条件下,LLM的表现优于人类,并揭示了人类和模型在语用理解上的相似性。
📝 摘要(中文)
近期研究表明,大型语言模型(LLMs)在理解极简英语语句方面表现不如人类。本文重新审视这些发现,认为先前研究高估了人类表现,低估了LLM的能力。使用相同的刺激,我们进行了一项预注册研究,比较了两种条件下的人类反应:一种允许重读(复制原始研究),另一种限制重读(更自然的理解测试)。当限制重读时,人类准确率显著下降(73%),低于Falcon-180B-Chat(76%)和GPT-4(81%)。最新的GPT-o1模型实现了完美的准确率。结果进一步表明,人类和模型都更容易受到涉及潜在互惠行为(例如,亲吻)的查询的挑战,这表明了共享的语用敏感性,而不是模型特有的缺陷。使用Llama-2-70B对数概率、开放式模型响应的重新编码以及其他句子的语法性评分进行的额外分析表明,模型性能被系统性地低估了。我们发现,GPT-4o可以根据提示框架与朴素或专家语法判断保持一致。这些发现强调了LLM评估中更仔细的实验设计和编码实践的必要性,并挑战了当前模型在语言理解方面本质上弱于人类的假设。
🔬 方法详解
问题定义:现有研究声称大型语言模型在理解简单英语语句方面不如人类,但这些研究可能高估了人类的表现,低估了LLM的能力。现有评估方法,如允许无限重读,可能无法真实反映自然语言理解能力。
核心思路:通过设计更贴近自然语言理解场景的实验,例如限制重读,来更准确地评估人类和LLM在理解谜题语句方面的能力。同时,深入分析模型在特定类型语句上的表现,例如涉及互惠行为的语句,以揭示模型和人类在语用理解上的共性。
技术框架:该研究主要采用实验方法,包括:1)设计两种人类实验条件:允许重读和限制重读;2)使用相同的谜题语句作为刺激,比较不同条件下的准确率;3)使用多个LLM(如Falcon-180B-Chat, GPT-4, GPT-o1, Llama-2-70B)进行测试,并分析其输出;4)使用对数概率、开放式模型响应的重新编码以及语法性评分等方法,更全面地评估模型性能。
关键创新:该研究的关键创新在于:1)提出了更自然的评估方法,即限制重读,以更准确地评估语言理解能力;2)揭示了人类和LLM在语用理解上的相似性,挑战了LLM在语言理解方面弱于人类的假设;3)通过多种分析方法,更全面地评估了LLM的性能,避免了单一指标可能带来的偏差。
关键设计:实验设计的关键在于限制重读条件,该条件更贴近日常语言理解场景。此外,研究还关注了涉及互惠行为的语句,例如“亲吻”,因为这些语句可能涉及更复杂的语用推理。对于LLM的评估,研究使用了多种指标,包括准确率、对数概率和语法性评分,以更全面地评估模型性能。
📊 实验亮点
实验结果表明,在限制重读的条件下,人类的准确率显著下降到73%,低于Falcon-180B-Chat(76%)和GPT-4(81%)。GPT-o1模型达到了完美的准确率。研究还发现,人类和模型在处理涉及互惠行为的语句时都面临挑战,表明它们具有相似的语用敏感性。
🎯 应用场景
该研究成果可应用于更准确地评估和提升大型语言模型的语言理解能力,尤其是在需要自然语言推理和语用理解的场景中,例如智能客服、对话系统和信息检索。更合理的评估方法有助于推动LLM在实际应用中的可靠性和有效性。
📄 摘要(原文)
Recent claims suggest that large language models (LMs) underperform humans in comprehending minimally complex English statements (Dentella et al., 2024). Here, we revisit those findings and argue that human performance was overestimated, while LLM abilities were underestimated. Using the same stimuli, we report a preregistered study comparing human responses in two conditions: one allowed rereading (replicating the original study), and one that restricted rereading (a more naturalistic comprehension test). Human accuracy dropped significantly when rereading was restricted (73%), falling below that of Falcon-180B-Chat (76%) and GPT-4 (81%). The newer GPT-o1 model achieves perfect accuracy. Results further show that both humans and models are disproportionately challenged by queries involving potentially reciprocal actions (e.g., kissing), suggesting shared pragmatic sensitivities rather than model-specific deficits. Additional analyses using Llama-2-70B log probabilities, a recoding of open-ended model responses, and grammaticality ratings of other sentences reveal systematic underestimation of model performance. We find that GPT-4o can align with either naive or expert grammaticality judgments, depending on prompt framing. These findings underscore the need for more careful experimental design and coding practices in LLM evaluation, and they challenge the assumption that current models are inherently weaker than humans at language comprehension.