On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts

📄 arXiv: 2509.06952v2 📥 PDF

作者: Linlu Qiu, Cedegao E. Zhang, Joshua B. Tenenbaum, Yoon Kim, Roger P. Levy

分类: cs.CL

发布日期: 2025-09-08 (更新: 2025-09-27)

备注: EMNLP 2025 (Main)


💡 一句话要点

提出评估框架以提升语言模型的实用推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 语用推理 理性言语行为 思维链 语言理解 语言生成 贝叶斯推理

📋 核心要点

  1. 现有语言模型在语用推理能力上存在不足,尤其是在复杂的交际场景中表现不佳。
  2. 论文提出了一种基于Wavelength游戏的评估框架,结合CoT和RSA方法来提升语言模型的推理能力。
  3. 实验结果显示,最先进的语言模型在理解任务中接近人类表现,而RSA方法在生成任务中显著提升了性能。

📝 摘要(中文)

语言使用受到语用学的影响,即在上下文中对交际目标和规范的推理。随着语言模型(LMs)作为对话代理的使用日益增加,理解其语用推理能力变得尤为重要。本文提出了一种评估框架,基于流行的沟通游戏Wavelength,研究多种语言模型在语言理解和生成方面的表现。通过直接提示和思维链(CoT)提示,结合理性言语行为(RSA)方法,探索将贝叶斯语用推理融入语言模型推理中。研究发现,最先进的语言模型在语言理解上表现出色,准确率接近人类,且与人类判断高度相关。语言生成方面,CoT优于直接提示,而RSA则显著提升了两者的效果。该研究帮助识别语言模型在语用推理能力上的优势与局限,并展示了通过RSA改进的潜力。

🔬 方法详解

问题定义:本文旨在解决语言模型在语用推理方面的不足,特别是在复杂交际场景下的表现。现有方法未能充分考虑上下文中的交际目标与规范,导致推理能力受限。

核心思路:论文的核心思路是通过引入基于Wavelength的评估框架,结合思维链(CoT)和理性言语行为(RSA)方法,增强语言模型的语用推理能力。这种设计旨在更好地模拟人类的交际过程。

技术框架:整体架构包括三个主要模块:1) 语言理解评估,2) 语言生成评估,3) RSA推理模块。通过对比不同提示方法的效果,评估模型在理解和生成任务中的表现。

关键创新:最重要的技术创新在于将RSA方法引入语言模型推理中,显著提升了模型在语言生成任务中的表现。这与传统方法的本质区别在于,RSA考虑了贝叶斯推理的框架,使得模型能够更好地理解交际意图。

关键设计:在参数设置上,采用了多种提示策略,包括直接提示和思维链提示。损失函数设计上,结合了语言理解和生成的目标,确保模型在两个任务上均能取得良好效果。

📊 实验亮点

实验结果表明,最先进的语言模型在语言理解任务中达到了接近人类的准确率,且与人类判断的相关性很高。在语言生成任务中,使用思维链提示的模型表现优于直接提示,而引入RSA方法后,性能提升显著,展示了该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能对话系统、教育辅助工具和人机交互界面等。通过提升语言模型的语用推理能力,可以使其在复杂的交际场景中更有效地理解和生成语言,从而提高用户体验和交互质量。未来,该研究可能对理解人类的概念表征、语言理解和社会推理产生深远影响。

📄 摘要(原文)

Language use is shaped by pragmatics -- i.e., reasoning about communicative goals and norms in context. As language models (LMs) are increasingly used as conversational agents, it becomes ever more important to understand their pragmatic reasoning abilities. We propose an evaluation framework derived from Wavelength, a popular communication game where a speaker and a listener communicate about a broad range of concepts in a granular manner. We study a range of LMs on both language comprehension and language production using direct and Chain-of-Thought (CoT) prompting, and further explore a Rational Speech Act (RSA) approach to incorporating Bayesian pragmatic reasoning into LM inference. We find that state-of-the-art LMs, but not smaller ones, achieve strong performance on language comprehension, obtaining similar-to-human accuracy and exhibiting high correlations with human judgments even without CoT prompting or RSA. On language production, CoT can outperform direct prompting, and using RSA provides significant improvements over both approaches. Our study helps identify the strengths and limitations in LMs' pragmatic reasoning abilities and demonstrates the potential for improving them with RSA, opening up future avenues for understanding conceptual representation, language understanding, and social reasoning in LMs and humans.