They want to pretend not to understand: The Limits of Current LLMs in Interpreting Implicit Content of Political Discourse
作者: Walter Paci, Alessandro Panunzi, Sandro Pezzelle
分类: cs.CL
发布日期: 2025-06-07
备注: Accepted to the ACL2025 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
揭示LLM在理解政治语篇中隐性含义的局限性,基于IMPAQTS语料库进行评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 政治语篇理解 隐性含义识别 大型语言模型 语用推理 IMPAQTS语料库
📋 核心要点
- 现有LLM在理解政治语篇中普遍存在的预设和蕴涵等隐性含义方面存在不足,难以准确捕捉演讲者的真实意图。
- 该研究利用IMPAQTS语料库,设计多项选择和开放式生成任务,系统评估LLM在识别和解释政治语篇隐性内容的能力。
- 实验结果表明,现有LLM在处理政治语篇中的预设和蕴涵时表现不佳,揭示了LLM在语用理解方面的局限性,并指出了未来研究方向。
📝 摘要(中文)
隐性内容在政治语篇中扮演着关键角色,演讲者系统地运用诸如蕴涵和预设之类的语用策略来影响受众。大型语言模型(LLM)在需要复杂语义和语用理解的任务中表现出强大的性能,突显了它们在检测和解释隐性内容含义方面的潜力。然而,它们在政治语篇中执行此操作的能力在很大程度上尚未被探索。我们首次利用大型IMPAQTS语料库(包含带有操纵性隐性内容注释的意大利政治演讲),提出了测试LLM在此挑战性问题中有效性的方法。通过多项选择任务和开放式生成任务,我们证明了所有经过测试的模型都难以解释预设和蕴涵。我们得出结论,当前的LLM缺乏准确解释高度隐性语言(例如政治语篇中发现的语言)所需的关键语用能力。同时,我们强调了增强模型性能的有希望的趋势和未来方向。我们将数据和代码发布在https://github.com/WalterPaci/IMPAQTS-PID。
🔬 方法详解
问题定义:论文旨在评估当前大型语言模型(LLM)在理解政治语篇中隐性含义(特别是预设和蕴涵)方面的能力。现有方法,即直接应用LLM,无法有效处理政治语篇中高度依赖语境和常识的隐性表达,导致理解偏差或错误。
核心思路:论文的核心思路是通过构建专门针对政治语篇隐性内容理解的评估任务,来系统性地测试LLM的语用推理能力。通过分析LLM在这些任务上的表现,揭示其在处理复杂语境和识别隐性含义方面的局限性。这种方法强调了语境理解和语用推理在政治语篇分析中的重要性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:利用IMPAQTS语料库,该语料库包含带有操纵性隐性内容注释的意大利政治演讲。2) 任务设计:设计了两种评估任务:多项选择任务(判断哪个选项正确解释了隐性含义)和开放式生成任务(生成对隐性含义的解释)。3) 模型评估:使用多个预训练LLM(具体模型未知)在这些任务上进行评估,并分析其表现。4) 结果分析:分析模型在不同类型的隐性内容上的表现差异,并探讨其局限性。
关键创新:该研究的关键创新在于:1) 首次系统性地评估了LLM在理解政治语篇隐性内容方面的能力。2) 利用IMPAQTS语料库,为政治语篇隐性内容理解提供了一个新的评估基准。3) 通过多项选择和开放式生成任务,从不同角度评估了LLM的语用推理能力。与现有方法相比,该研究更关注LLM在特定领域(政治语篇)和特定类型的语言现象(隐性内容)上的表现。
关键设计:具体参数设置、损失函数和网络结构等技术细节在论文中未详细说明。但是,可以推断,多项选择任务可能使用了交叉熵损失函数,而开放式生成任务可能使用了序列到序列模型和相应的损失函数(如负对数似然)。关键在于任务的设计,即如何构造能够有效评估LLM语用推理能力的测试用例。IMPAQTS语料库的标注质量对实验结果至关重要。
📊 实验亮点
实验结果表明,当前LLM在处理政治语篇中的预设和蕴涵时表现不佳,在多项选择和开放式生成任务中均未能达到理想的性能。具体性能数据未知,但论文强调了所有测试模型都存在明显的局限性。该研究揭示了LLM在语用理解方面的不足,为未来研究提供了重要的参考。
🎯 应用场景
该研究成果可应用于政治传播分析、舆情监控、虚假信息检测等领域。通过提升LLM对政治语篇隐性含义的理解能力,可以更准确地分析政治家的言论,识别潜在的操纵性信息,从而提高公众的媒介素养和批判性思维能力。未来的研究可以进一步探索如何利用外部知识和语境信息来增强LLM的语用推理能力。
📄 摘要(原文)
Implicit content plays a crucial role in political discourse, where speakers systematically employ pragmatic strategies such as implicatures and presuppositions to influence their audiences. Large Language Models (LLMs) have demonstrated strong performance in tasks requiring complex semantic and pragmatic understanding, highlighting their potential for detecting and explaining the meaning of implicit content. However, their ability to do this within political discourse remains largely underexplored. Leveraging, for the first time, the large IMPAQTS corpus, which comprises Italian political speeches with the annotation of manipulative implicit content, we propose methods to test the effectiveness of LLMs in this challenging problem. Through a multiple-choice task and an open-ended generation task, we demonstrate that all tested models struggle to interpret presuppositions and implicatures. We conclude that current LLMs lack the key pragmatic capabilities necessary for accurately interpreting highly implicit language, such as that found in political discourse. At the same time, we highlight promising trends and future directions for enhancing model performance. We release our data and code at https://github.com/WalterPaci/IMPAQTS-PID