Non-literal Understanding of Number Words by Language Models
作者: Polina Tsvilodub, Kanishk Gandhi, Haoran Zhao, Jan-Philipp Fränken, Michael Franke, Noah D. Goodman
分类: cs.CL
发布日期: 2025-02-10 (更新: 2025-06-02)
备注: 12 pages, 10 figures. To appear in the Proceedings of CogSci 2025
💡 一句话要点
通过链式思考提示,提升大语言模型对数字词汇的非字面理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 非字面理解 数字词汇 理性语音行为 链式思考
📋 核心要点
- 现有大语言模型在理解数字的非字面含义(如夸张)方面存在不足,与人类认知存在差异。
- 论文提出利用理性语音行为框架(RSA)指导的链式思考提示,提升LLM对数字非字面含义的理解。
- 实验表明,该方法能有效提升LLM在数字理解任务中的表现,使其更接近人类水平。
📝 摘要(中文)
人类自然地以非字面意义理解数字,毫不费力地结合语境、世界知识和说话者意图。本文研究大型语言模型(LLM)是否以类似方式解释数字,重点关注夸张和语用光环效应。通过与人类数据和语用推理计算模型的系统比较,我们发现LLM的解释与人类的解释存在显著差异。通过将语用推理分解为可测试的组成部分,并以理性语音行为(Rational Speech Act, RSA)框架为基础,我们确定了LLM处理与人类认知不同的地方——不是在先验知识,而是在利用先验知识进行推理。这一发现促使我们开发了一个有针对性的解决方案——受RSA模型启发的链式思考提示,使LLM的解释更像人类。我们的工作展示了计算认知模型如何诊断AI与人类的差异,并指导更像人类的语言理解能力的开发。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在理解数字词汇的非字面意义(例如,夸张和语用光环效应)时表现出的不足。现有方法未能充分模拟人类在理解数字时的语境意识、世界知识和说话者意图,导致LLM的解释与人类的直觉存在显著差异。这种差异限制了LLM在需要细致语义理解的应用中的有效性。
核心思路:论文的核心思路是借鉴理性语音行为(RSA)框架,通过链式思考(Chain-of-Thought, CoT)提示,引导LLM进行更深入的语用推理。RSA框架提供了一种形式化的方式来模拟说话者和听者之间的推理过程,而CoT提示则鼓励LLM逐步分解问题,从而更好地模拟人类的认知过程。
技术框架:该方法主要包括以下几个阶段:1) 设计基于RSA模型的CoT提示模板,引导LLM逐步推理说话者的意图和语境信息。2) 将CoT提示输入LLM,让其生成中间推理步骤。3) 基于中间推理步骤,LLM最终给出对数字词汇的非字面解释。整个框架旨在将人类的语用推理过程显式地引入到LLM的处理流程中。
关键创新:论文的关键创新在于将计算认知模型(RSA)与LLM的提示工程相结合,提出了一种新的方法来提升LLM的语用推理能力。与传统的提示方法相比,该方法更加注重对人类认知过程的模拟,从而使LLM的解释更接近人类的直觉。此外,通过分解语用推理过程,论文还能够更精确地诊断LLM与人类认知之间的差异。
关键设计:CoT提示的设计是关键。提示模板需要清晰地引导LLM思考说话者的意图、语境信息以及世界知识。例如,提示可能包含以下问题:“说话者为什么要使用这个数字?”、“在当前语境下,这个数字的字面意义是否合理?”、“说话者可能想表达什么?”。通过这些问题的引导,LLM能够逐步构建对数字词汇的非字面理解。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于RSA模型的链式思考提示能够显著提升LLM对数字词汇非字面意义的理解能力。具体而言,在多个测试数据集上,该方法的表现更接近人类水平,并且优于传统的提示方法。这表明,通过模拟人类的认知过程,可以有效地提升LLM的语言理解能力。
🎯 应用场景
该研究成果可应用于提升人机对话系统的自然性和准确性,尤其是在需要理解说话者意图和语境信息的场景下。例如,在智能客服、虚拟助手等领域,更准确的数字理解能力可以帮助系统更好地理解用户需求,提供更个性化的服务。此外,该方法还可以推广到其他需要语用推理的自然语言理解任务中,例如情感分析、讽刺检测等。
📄 摘要(原文)
Humans naturally interpret numbers non-literally, effortlessly combining context, world knowledge, and speaker intent. We investigate whether large language models (LLMs) interpret numbers similarly, focusing on hyperbole and pragmatic halo effects. Through systematic comparison with human data and computational models of pragmatic reasoning, we find that LLMs diverge from human interpretation in striking ways. By decomposing pragmatic reasoning into testable components, grounded in the Rational Speech Act framework, we pinpoint where LLM processing diverges from human cognition -- not in prior knowledge, but in reasoning with it. This insight leads us to develop a targeted solution -- chain-of-thought prompting inspired by an RSA model makes LLMs' interpretations more human-like. Our work demonstrates how computational cognitive models can both diagnose AI-human differences and guide development of more human-like language understanding capabilities.