A Psycholinguistic Evaluation of Language Models' Sensitivity to Argument Roles
作者: Eun-Kyoung Rosa Lee, Sathvik Nair, Naomi Feldman
分类: cs.CL
发布日期: 2024-10-21
💡 一句话要点
评估语言模型对论元角色敏感性的心理语言学研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 论元角色 心理语言学 动词合理性 自然语言处理 实时处理 人机交互
📋 核心要点
- 核心问题:现有语言模型在实时动词预测中未能表现出与人类相似的选择性模式,显示出其理解能力的局限性。
- 方法要点:通过系统评估语言模型对动词合理性的敏感性,研究其与人类理解者的差异,揭示模型的局限性。
- 实验或效果:实验结果表明,语言模型能够区分合理和不合理的动词上下文,但未能模拟人类的实时处理机制。
📝 摘要(中文)
本研究系统评估了大型语言模型对论元角色的敏感性,即谁对谁做了什么,通过复制人类论元角色处理的心理语言学研究。在三项实验中,我们发现语言模型能够区分在合理和不合理上下文中出现的动词,而合理性是通过动词与其前置论元之间的关系来确定的。然而,模型未能捕捉到人类理解者在实时动词预测中表现出的选择性模式。这表明,语言模型检测动词合理性的能力并非源于人类实时句子处理的相同机制。
🔬 方法详解
问题定义:本研究旨在解决大型语言模型在理解论元角色时的敏感性问题,尤其是在实时动词预测中的不足。现有方法未能有效捕捉人类在处理动词合理性时的选择性模式。
核心思路:研究通过复制心理语言学实验,评估语言模型对动词及其论元的合理性判断,探索模型与人类理解者之间的差异。这样的设计旨在揭示模型的理解机制与人类的不同。
技术框架:整体架构包括三项实验,分别测试语言模型在不同上下文中的动词选择能力。每项实验设计了合理与不合理的上下文,以评估模型的反应。
关键创新:本研究的创新点在于系统性地将心理语言学实验应用于语言模型的评估,揭示了模型在动词合理性判断上的局限性,与传统方法相比,提供了更深入的理解。
关键设计:实验中使用了多种语言模型,设置了合理性判断的标准,通过对比人类与模型的反应,分析了模型在实时处理中的表现。
🖼️ 关键图片
📊 实验亮点
实验结果显示,语言模型能够有效区分合理和不合理的动词上下文,但未能模拟人类在实时动词预测中的选择性模式。这一发现强调了模型在理解能力上的不足,为未来的研究指明了方向。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、对话系统和智能助手等。通过理解语言模型的局限性,可以为未来的模型设计提供指导,提升其在复杂语言任务中的表现,进而推动人机交互的自然性和有效性。
📄 摘要(原文)
We present a systematic evaluation of large language models' sensitivity to argument roles, i.e., who did what to whom, by replicating psycholinguistic studies on human argument role processing. In three experiments, we find that language models are able to distinguish verbs that appear in plausible and implausible contexts, where plausibility is determined through the relation between the verb and its preceding arguments. However, none of the models capture the same selective patterns that human comprehenders exhibit during real-time verb prediction. This indicates that language models' capacity to detect verb plausibility does not arise from the same mechanism that underlies human real-time sentence processing.