Leveraging Human Production-Interpretation Asymmetries to Test LLM Cognitive Plausibility

📄 arXiv: 2503.17579v2 📥 PDF

作者: Suet-Ying Lam, Qingcheng Zeng, Jingyi Wu, Rob Voigt

分类: cs.CL

发布日期: 2025-03-21 (更新: 2025-06-02)

备注: ACL 2025 Camera-ready

🔗 代码/项目: GITHUB


💡 一句话要点

利用人类产出-理解不对称性测试LLM的认知合理性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知合理性 产出-理解不对称性 隐性因果动词 指令调优

📋 核心要点

  1. 现有研究缺乏对LLM是否具备与人类相似的认知过程的深入评估,尤其是在语言产出和理解的细微差别上。
  2. 该研究利用人类在隐性因果动词处理中的产出-理解不对称性,作为测试LLM认知合理性的关键指标。
  3. 实验表明,较大规模的LLM在一定程度上能够复现人类的产出-理解不对称性,但结果受提示词选择影响。

📝 摘要(中文)

大型语言模型(LLM)处理语言的方式是否与人类相似,一直是理论和实践争论的主题。本文通过人类句子处理中发现的产出-理解区分的视角来研究这个问题,并评估指令调优的LLM在多大程度上复制了这种区分。以人类在隐性因果动词的代词产出和理解方面经验证的不对称性作为测试平台,我们发现一些LLM在数量和质量上都反映了类人产出和理解之间的不对称性。我们证明了这种行为是否成立取决于模型的大小(较大的模型更可能反映类人模式)以及用于引出该行为的元语言提示的选择。我们的代码和结果可在https://github.com/LingMechLab/Production-Interpretation_Asymmetries_ACL2025获得。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)是否具备与人类相似的认知能力,具体关注LLM在语言产出和理解上的不对称性。现有方法难以有效衡量LLM的认知合理性,缺乏对人类语言处理细微差别的模拟能力。

核心思路:论文的核心思路是利用人类在语言产出和理解上的不对称性(production-interpretation asymmetry)作为测试LLM认知合理性的探针。具体而言,选择隐性因果动词(implicit causality verbs)作为研究对象,因为人类在使用这些动词时,在代词的产出和理解上存在显著差异。通过观察LLM是否表现出类似的不对称性,来推断其认知过程是否与人类相似。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的隐性因果动词作为测试用例;2) 设计元语言提示(meta-linguistic prompts),引导LLM进行代词的产出和理解;3) 使用不同规模的指令调优LLM进行实验;4) 分析LLM的产出和理解结果,评估其是否表现出与人类相似的不对称性。

关键创新:该研究的关键创新在于将人类语言处理中的产出-理解不对称性引入到LLM的认知合理性评估中。这种方法提供了一种新的视角,可以更深入地了解LLM的语言处理机制,并评估其是否具备与人类相似的认知能力。与传统的评估方法相比,该方法更加关注LLM在语言使用上的细微差别,能够更准确地反映其认知过程。

关键设计:关键设计包括:1) 隐性因果动词的选择,需要确保这些动词在人类语言处理中存在显著的产出-理解不对称性;2) 元语言提示的设计,需要能够有效地引导LLM进行代词的产出和理解,同时避免引入偏差;3) 模型规模的选择,需要涵盖不同规模的LLM,以便评估模型规模对结果的影响;4) 评估指标的选择,需要能够准确地衡量LLM在产出和理解上的不对称性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,较大规模的LLM在一定程度上能够复现人类在隐性因果动词处理中的产出-理解不对称性。具体来说,某些LLM在代词的产出和理解上表现出与人类相似的差异,但这种行为的出现取决于模型的大小和提示词的选择。例如,更大的模型更可能反映人类的模式。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的认知合理性,使其更符合人类的语言习惯和认知模式。通过理解LLM的语言处理机制,可以开发更有效的人机交互系统,并提高LLM在自然语言处理任务中的性能。此外,该研究还可以为认知科学和计算语言学提供新的 insights。

📄 摘要(原文)

Whether large language models (LLMs) process language similarly to humans has been the subject of much theoretical and practical debate. We examine this question through the lens of the production-interpretation distinction found in human sentence processing and evaluate the extent to which instruction-tuned LLMs replicate this distinction. Using an empirically documented asymmetry between pronoun production and interpretation in humans for implicit causality verbs as a testbed, we find that some LLMs do quantitatively and qualitatively reflect human-like asymmetries between production and interpretation. We demonstrate that whether this behavior holds depends upon both model size-with larger models more likely to reflect human-like patterns and the choice of meta-linguistic prompts used to elicit the behavior. Our codes and results are available at https://github.com/LingMechLab/Production-Interpretation_Asymmetries_ACL2025.