Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

📄 arXiv: 2604.02512 📥 PDF

作者: Roland Mühlenbernd

分类: cs.CL, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出ESR和CDS指标,并利用语用提示提升LLM社会推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会推理 语用学 提示工程 量化校准

📋 核心要点

  1. 现有LLM在社会推理方面存在量化不准确的问题,无法完全逼近人类的社会意义。
  2. 论文提出基于语用理论的提示策略,通过引导模型推理说话者知识和动机来改善量化校准。
  3. 实验表明,结合知识/动机推理和替代方案意识的提示策略能有效提升LLM的社会推理能力。

📝 摘要(中文)

大型语言模型(LLM)越来越多地表现出类似人类的语用和社会推理模式。本文探讨了两个相关问题:LLM是否不仅在质量上,也在数量上逼近人类的社会意义?以及,受语用理论启发的提示策略能否改善这种逼近?为了解决第一个问题,我们引入了两个以校准为中心的指标,区分结构保真度和幅度校准:效应量比率(ESR)和校准偏差分数(CDS)。为了解决第二个问题,我们从两个语用假设中推导出提示条件:社会意义源于对语言替代方案的推理,以及听众推断说话者的知识状态和交际动机。应用于三个前沿LLM的数值(不)精确案例研究表明,所有模型都可靠地再现了人类社会推理的定性结构,但在幅度校准方面存在显著差异。提示模型推理说话者的知识和动机最一致地减少了幅度偏差,而提示替代方案意识往往会放大夸张。结合这两个组成部分是唯一可以改善所有模型的所有校准敏感指标的干预措施,尽管细粒度的幅度校准仍然只是部分解决。因此,LLM捕获了推理结构,同时不同程度地扭曲了推理强度,并且语用理论为改善这种逼近提供了有用但不完整的手段。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在社会推理中,尤其是在量化社会意义方面,与人类存在偏差的问题。现有方法主要关注LLM的定性社会推理能力,而忽略了其在量化幅度上的准确性。这种量化偏差会影响LLM在实际应用中的可靠性和可信度。

核心思路:论文的核心思路是利用语用理论来指导LLM的提示工程,从而改善其社会推理的量化校准。具体来说,论文基于两个语用假设:社会意义源于对语言替代方案的推理,以及听众会推断说话者的知识状态和交际动机。通过设计相应的提示,引导LLM进行更深入的社会推理。

技术框架:论文的技术框架主要包括以下几个部分:首先,定义了两个新的评估指标:效应量比率(ESR)和校准偏差分数(CDS),用于量化LLM在社会推理中的结构保真度和幅度校准。其次,基于语用理论,设计了两种提示策略:一种是引导LLM考虑语言替代方案,另一种是引导LLM推理说话者的知识状态和交际动机。最后,通过实验评估了这些提示策略在改善LLM社会推理能力方面的效果。

关键创新:论文的关键创新在于:1) 提出了ESR和CDS这两个新的评估指标,能够更全面地评估LLM的社会推理能力。2) 将语用理论应用于LLM的提示工程,提出了一种新的改善LLM社会推理能力的方法。3) 实验结果表明,基于语用理论的提示策略能够有效提升LLM的社会推理能力。

关键设计:论文的关键设计包括:ESR和CDS的计算公式,具体提示语的设计(包括引导LLM考虑语言替代方案和推理说话者知识状态/交际动机的提示),以及实验设置(包括选择的LLM模型、数据集和评估指标)。提示语的设计需要仔细考虑如何有效地引导LLM进行社会推理,避免引入新的偏差。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,所有模型都能可靠地再现人类社会推理的定性结构,但在幅度校准方面存在显著差异。提示模型推理说话者的知识和动机最一致地减少了幅度偏差。结合知识/动机推理和替代方案意识的提示策略能够改善所有模型的所有校准敏感指标。

🎯 应用场景

该研究成果可应用于提升LLM在对话系统、智能客服、情感分析等领域的性能。通过提高LLM社会推理的准确性,可以使其更好地理解人类意图,从而提供更自然、更可靠的服务。此外,该研究也为开发更具社会意识的人工智能系统提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) increasingly exhibit human-like patterns of pragmatic and social reasoning. This paper addresses two related questions: do LLMs approximate human social meaning not only qualitatively but also quantitatively, and can prompting strategies informed by pragmatic theory improve this approximation? To address the first, we introduce two calibration-focused metrics distinguishing structural fidelity from magnitude calibration: the Effect Size Ratio (ESR) and the Calibration Deviation Score (CDS). To address the second, we derive prompting conditions from two pragmatic assumptions: that social meaning arises from reasoning over linguistic alternatives, and that listeners infer speaker knowledge states and communicative motives. Applied to a case study on numerical (im)precision across three frontier LLMs, we find that all models reliably reproduce the qualitative structure of human social inferences but differ substantially in magnitude calibration. Prompting models to reason about speaker knowledge and motives most consistently reduces magnitude deviation, while prompting for alternative-awareness tends to amplify exaggeration. Combining both components is the only intervention that improves all calibration-sensitive metrics across all models, though fine-grained magnitude calibration remains only partially resolved. LLMs thus capture inferential structure while variably distorting inferential strength, and pragmatic theory provides a useful but incomplete handle for improving that approximation.