On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts

📄 arXiv: 2509.06952v2 📥 PDF

作者: Linlu Qiu, Cedegao E. Zhang, Joshua B. Tenenbaum, Yoon Kim, Roger P. Levy

分类: cs.CL

发布日期: 2025-09-08 (更新: 2025-09-27)

备注: EMNLP 2025 (Main)


💡 一句话要点

提出基于Wavelength的评估框架,衡量语言模型在广泛概念上的语用推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语用推理 语言模型 Wavelength游戏 理性语音行为 对话系统

📋 核心要点

  1. 现有语言模型在对话场景中应用广泛,但缺乏对语用推理能力的系统评估。
  2. 论文提出基于Wavelength游戏的评估框架,并结合理性语音行为(RSA)模型,提升语言模型的语用推理能力。
  3. 实验表明,大型语言模型在理解方面表现出色,而RSA显著提升了语言模型的生成能力。

📝 摘要(中文)

本文提出了一种评估框架,该框架源自Wavelength,一种流行的交流游戏,其中说话者和听者以细粒度的方式交流关于广泛概念的信息。我们使用直接提示和思维链(CoT)提示,研究了一系列语言模型在语言理解和语言生成方面的能力,并进一步探索了一种理性语音行为(RSA)方法,将贝叶斯语用推理融入到语言模型推理中。我们发现,最先进的语言模型(而非较小的模型)在语言理解方面表现出色,即使没有CoT提示或RSA,也能获得与人类相似的准确性,并与人类判断表现出高度相关性。在语言生成方面,CoT可以优于直接提示,并且使用RSA可以显著改进这两种方法。我们的研究有助于识别语言模型在语用推理能力方面的优势和局限性,并展示了使用RSA改进它们的潜力,为理解语言模型和人类中的概念表示、语言理解和社会推理开辟了未来的途径。

🔬 方法详解

问题定义:论文旨在评估语言模型在理解和生成语言时进行语用推理的能力。现有方法缺乏对语言模型在广泛概念范围内进行细粒度语用推理的有效评估。此外,如何有效地将语用推理融入到语言模型的推理过程中也是一个挑战。

核心思路:论文的核心思路是利用Wavelength游戏作为评估环境,该游戏涉及说话者和听者之间关于连续概念的交流。通过分析语言模型在扮演说话者和听者角色时的表现,可以评估其语用推理能力。此外,论文还探索了使用理性语音行为(RSA)模型来增强语言模型的语用推理能力。RSA模型基于贝叶斯推理,可以模拟说话者和听者之间的相互推理过程。

技术框架:整体框架包括三个主要部分:1) 基于Wavelength游戏的评估环境;2) 使用直接提示和思维链(CoT)提示的语言模型;3) 结合RSA模型的语言模型。评估过程包括语言理解和语言生成两个方面。在语言理解方面,语言模型扮演听者角色,需要根据说话者的提示推断目标概念。在语言生成方面,语言模型扮演说话者角色,需要生成能够有效引导听者推断目标概念的提示。

关键创新:论文的关键创新在于:1) 提出了基于Wavelength游戏的评估框架,可以对语言模型在广泛概念上的语用推理能力进行细粒度评估;2) 探索了使用RSA模型来增强语言模型的语用推理能力,并证明了其有效性。与现有方法相比,该方法能够更全面地评估语言模型的语用推理能力,并提供了一种有效的改进方法。

关键设计:在RSA模型中,关键的设计包括:1) 定义说话者和听者的效用函数,用于衡量交流的成功程度;2) 使用贝叶斯推理来模拟说话者和听者之间的相互推理过程;3) 调整RSA模型的参数,以优化其性能。此外,论文还探索了不同的提示策略,例如直接提示和思维链(CoT)提示,以提高语言模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在语言理解方面表现出色,能够达到与人类相似的准确率,并与人类判断表现出高度相关性。在语言生成方面,使用RSA模型可以显著提升语言模型的性能,优于直接提示和思维链提示。例如,RSA模型在语言生成任务上的准确率提升了X%。

🎯 应用场景

该研究成果可应用于开发更智能、更自然的对话系统,例如智能助手、聊天机器人等。通过提升语言模型的语用推理能力,可以使其更好地理解用户的意图,并生成更符合语境的回复。此外,该研究还可以促进对人类语言理解和社会推理机制的深入理解。

📄 摘要(原文)

Language use is shaped by pragmatics -- i.e., reasoning about communicative goals and norms in context. As language models (LMs) are increasingly used as conversational agents, it becomes ever more important to understand their pragmatic reasoning abilities. We propose an evaluation framework derived from Wavelength, a popular communication game where a speaker and a listener communicate about a broad range of concepts in a granular manner. We study a range of LMs on both language comprehension and language production using direct and Chain-of-Thought (CoT) prompting, and further explore a Rational Speech Act (RSA) approach to incorporating Bayesian pragmatic reasoning into LM inference. We find that state-of-the-art LMs, but not smaller ones, achieve strong performance on language comprehension, obtaining similar-to-human accuracy and exhibiting high correlations with human judgments even without CoT prompting or RSA. On language production, CoT can outperform direct prompting, and using RSA provides significant improvements over both approaches. Our study helps identify the strengths and limitations in LMs' pragmatic reasoning abilities and demonstrates the potential for improving them with RSA, opening up future avenues for understanding conceptual representation, language understanding, and social reasoning in LMs and humans.