How Hypocritical Is Your LLM judge? Listener-Speaker Asymmetries in the Pragmatic Competence of Large Language Models

📄 arXiv: 2604.15873v1 📥 PDF

作者: Judith Sieker, Sina Zarrieß

分类: cs.CL

发布日期: 2026-04-17

备注: Accepted at ACL 2026 (findings)


💡 一句话要点

揭示LLM判断中的虚伪性:大型语言模型在语用能力上存在听者-说话者不对称性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 语用能力 听者-说话者不对称性 语用判断 语用生成

📋 核心要点

  1. 现有研究缺乏对LLM作为语言生成者和判断者两种角色之间关联性的直接考察,导致对其语用能力的理解不全面。
  2. 该研究通过对比LLM在语用听者(判断)和语用说话者(生成)两种角色中的表现,揭示了它们在语用能力上的不对称性。
  3. 实验结果表明,许多LLM在语用判断方面的表现明显优于语用生成,暗示现有模型在语用理解和生成之间存在脱节。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被研究为语言知识的存储库。在这项工作中,模型通常被评估为语言的生成者和语言输出的判断者,然而,这两个角色很少被直接关联地考察。因此,尚不清楚在一个角色中的成功是否与在另一个角色中的成功相一致。在本文中,我们通过比较LLM作为语用听者(判断语言输出的适当性)和作为语用说话者(生成语用上适当的语言)的表现来解决语用能力方面的这个问题。我们评估了多个开放权重和专有LLM在三种语用设置下的表现。我们发现语用评估和语用生成之间存在显著的不对称性:许多模型作为听者的表现明显优于作为说话者的表现。我们的结果表明,在当前的LLM中,语用判断和语用生成之间的关联性较弱,因此需要更综合的评估方法。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在语用能力上的表现,特别是它们作为语用听者(判断语言是否合适)和语用说话者(生成合适的语言)时的能力。现有方法通常独立评估LLM的生成和判断能力,忽略了二者之间的关联性,无法全面评估LLM的语用能力。这种割裂的评估方式可能导致对LLM语用能力的误判。

核心思路:论文的核心思路是通过对比LLM在语用判断和语用生成两个角色中的表现,来揭示它们在语用能力上的不对称性。如果一个LLM在判断语言是否合适方面表现良好,但在生成合适的语言方面表现不佳,则说明该模型在语用理解和生成之间存在脱节。这种不对称性反映了LLM在语用能力上的局限性。

技术框架:该研究的技术框架主要包括以下几个步骤:1. 选择多个开放权重和专有的LLM作为研究对象。2. 设计三种不同的语用场景,用于评估LLM的语用判断和语用生成能力。3. 使用LLM作为语用听者,判断给定语言输出的适当性。4. 使用LLM作为语用说话者,生成在给定语用场景下合适的语言。5. 对比LLM在语用判断和语用生成方面的表现,分析它们之间的不对称性。

关键创新:该研究的关键创新在于首次直接对比了LLM在语用判断和语用生成两个角色中的表现,揭示了它们在语用能力上的不对称性。与现有研究中孤立地评估LLM的生成或判断能力不同,该研究强调了二者之间的关联性,为更全面地评估LLM的语用能力提供了新的视角。

关键设计:研究中使用了三种不同的语用场景,具体场景细节未知。评估指标可能包括判断的准确率、生成的流畅度和相关性等。具体参数设置和损失函数未知,因为论文主要关注的是LLM的整体表现,而非特定模型的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,许多LLM在语用判断方面的表现明显优于语用生成,揭示了LLM在语用能力上的不对称性。具体性能数据未知,但研究强调了这种不对称性的普遍性,表明现有LLM在语用理解和生成之间存在显著差距,需要进一步改进。

🎯 应用场景

该研究结果可应用于改进LLM的语用能力,使其在对话系统、文本生成、情感分析等领域表现更佳。通过解决语用理解和生成之间的不对称性,可以提升LLM在实际应用中的可靠性和实用性,例如,在智能客服中更准确地理解用户意图并生成恰当的回复。

📄 摘要(原文)

Large language models (LLMs) are increasingly studied as repositories of linguistic knowledge. In this line of work, models are commonly evaluated both as generators of language and as judges of linguistic output, yet these two roles are rarely examined in direct relation to one another. As a result, it remains unclear whether success in one role aligns with success in the other. In this paper, we address this question for pragmatic competence by comparing LLMs' performance as pragmatic listeners, judging the appropriateness of linguistic outputs, and as pragmatic speakers, generating pragmatically appropriate language. We evaluate multiple open-weight and proprietary LLMs across three pragmatic settings. We find a robust asymmetry between pragmatic evaluation and pragmatic generation: many models perform substantially better as listeners than as speakers. Our results suggest that pragmatic judging and pragmatic generation are only weakly aligned in current LLMs, calling for more integrated evaluation practices.