Unveiling the Limits of Large Language Models in Inferring Pragmatic Meaning from Non-Verbal Responses

作者: Sugyeong Eo, Heuiseok Lim

分类: cs.CL, cs.AI

发布日期: 2026-06-01

💡 一句话要点

评估大型语言模型在仅通过非语言反应推断语用意义方面的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 非语言行为 语用推理 人机交互 上下文学习

📋 核心要点

现有研究主要关注LLM对口头行为的理解，忽略了非语言行为在传达间接含义中的重要作用。
论文系统评估了LLM在仅通过非语言反应组成的对话中推断语用意义的能力，并分析了其局限性。
实验表明，LLM在理解非语言意图方面存在困难，但上下文学习可以提升其语用推理能力。

📝 摘要（中文）

尽管大型语言模型（LLMs）在语用语言理解方面取得了显著进展，但先前的研究主要集中在它们对口头行为的理解上。然而，非语言行为仍然是人类交流的基本组成部分，尤其是在有意识地单独使用以传达间接含义时。本文首次系统地评估了LLMs在仅由非语言反应组成的对话中推断语用意义的能力。我们探讨了三个研究问题：（1）LLMs能否识别通过非语言反应传达的间接意图？（2）LLMs在何时以及如何未能捕捉到非语言意图？（3）我们如何提高LLMs解释非语言意图的能力？通过评估，我们观察到LLMs难以从非语言反应中推断出潜在含义，与口头反应相比，准确率下降高达60%。进一步的广泛分析揭示了LLMs对非语言行为的解释中的行为模式，并表明上下文学习有助于语用推理。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在理解和推断非语言行为所蕴含的语用意义方面的不足。现有方法主要集中于LLMs对口头语言的理解，忽略了非语言行为在人类交流中的重要性，尤其是在传达间接意图时。因此，LLMs难以准确捕捉到非语言反应背后的真实意图，导致理解偏差。

核心思路：论文的核心思路是通过构建一个专门评估LLMs理解非语言反应的数据集，并设计相应的实验，来系统性地分析LLMs在非语言语用推理方面的能力。通过观察LLMs在不同场景下的表现，揭示其在理解非语言意图方面的局限性，并探索提升其理解能力的方法。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 构建包含非语言反应的对话数据集；2) 使用不同的LLMs（例如，GPT-3, GPT-4等）对数据集进行测试，评估其理解非语言意图的准确率；3) 分析LLMs的错误类型和行为模式，找出其在理解非语言意图方面的弱点；4) 探索使用上下文学习等方法来提升LLMs的非语言语用推理能力。

关键创新：该研究的关键创新在于首次系统性地评估了LLMs在理解非语言反应方面的能力。之前的研究主要集中在LLMs对口头语言的理解，而该研究填补了LLMs在非语言语用推理方面的空白。此外，该研究还揭示了LLMs在理解非语言意图方面的行为模式，并探索了提升其理解能力的方法。

关键设计：在实验设计方面，论文可能采用了多种策略来评估LLMs的非语言语用推理能力。例如，设计包含不同类型的非语言反应（例如，点头、摇头、耸肩等）的对话场景，并要求LLMs推断说话者的意图。此外，论文可能还使用了不同的上下文信息来评估LLMs对上下文的敏感度。在模型训练方面，论文可能使用了上下文学习等方法来提升LLMs的非语言语用推理能力，并评估了这些方法的有效性。具体的参数设置、损失函数和网络结构等技术细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLMs在理解非语言意图方面的准确率显著低于口头反应，下降高达60%。通过对LLMs的错误类型进行分析，揭示了其在理解非语言意图方面的行为模式。此外，实验还证明了上下文学习可以有效提升LLMs的非语言语用推理能力。

🎯 应用场景

该研究成果可应用于提升人机交互的自然性和准确性，尤其是在需要理解用户非语言行为的场景中，例如智能客服、虚拟助手、情感分析等。未来，该研究可以促进开发更智能、更人性化的AI系统，更好地理解和响应人类的真实意图。

📄 摘要（原文）

Although large language models (LLMs) have shown considerable progress in pragmatic language understanding, prior research has focused mainly on their comprehension of verbal behavior. Nonetheless, non-verbal behavior remains a fundamental component of human communication, especially when deliberately utilized in isolation to convey indirect meanings. In this work, we present the first systematic evaluation of LLMs' ability to infer pragmatic meaning in dialogue consisting solely of non-verbal responses. We explore three research questions: (1) Can LLMs recognize indirect intent conveyed through non-verbal responses? (2) When and how do LLMs fail to capture non-verbal intent? (3) How can we improve LLMs' ability to interpret non-verbal intent?. Through the evaluation, we observe that LLMs struggle to infer underlying meaning from non-verbal responses, with accuracy dropping by up to 60% points compared to verbal ones. Further extensive analysis reveals a behavioral pattern in LLMs' interpretations of non-verbal behavior and demonstrates that in-context learning facilitates pragmatic inference.

Unveiling the Limits of Large Language Models in Inferring Pragmatic Meaning from Non-Verbal Responses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理