Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding

📄 arXiv: 2507.15357v1 📥 PDF

作者: Elisa Sanchez-Bayona, Rodrigo Agerri

分类: cs.CL, cs.AI

发布日期: 2025-07-21


💡 一句话要点

揭示大语言模型在隐喻理解中过度依赖表面特征的现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 隐喻理解 自然语言推理 问答系统 表面特征 上下文学习

📋 核心要点

  1. 现有隐喻理解研究多局限于特定数据集和任务,缺乏对LLM能力的全面评估。
  2. 通过在多样化数据集上进行NLI和QA任务实验,分析LLM对隐喻的理解能力。
  3. 实验表明LLM性能受词汇重叠等表面特征影响更大,而非真正理解隐喻内容。

📝 摘要(中文)

本文全面评估了大语言模型(LLMs)在多个数据集、任务和提示配置下隐喻理解的能力。尽管隐喻处理在自然语言处理(NLP)中受到了广泛关注,但之前的研究仅限于单数据集评估和特定任务设置,通常使用通过词汇替换人工构建的数据。我们通过使用具有推理和隐喻注释的各种公开数据集进行广泛的实验来解决这些限制,重点关注自然语言推理(NLI)和问答(QA)任务。结果表明,LLMs的性能更多地受到词汇重叠和句子长度等特征的影响,而不是隐喻内容,这表明LLMs理解隐喻语言的任何所谓的涌现能力都是表面特征、上下文学习和语言知识相结合的结果。这项工作为LLMs在处理比喻语言方面的当前能力和局限性提供了重要的见解,强调需要在隐喻解释任务中建立更现实的评估框架。数据和代码已公开。

🔬 方法详解

问题定义:现有的大语言模型在隐喻理解方面表现出一定的能力,但之前的研究往往集中在特定数据集和任务上,缺乏对LLM在不同场景下隐喻理解能力的全面评估。此外,许多研究使用人工构建的数据,例如通过词汇替换生成隐喻,这与真实世界的隐喻存在差距。因此,需要更现实的评估框架来准确衡量LLM的隐喻理解能力。

核心思路:本文的核心思路是通过在多个公开数据集上进行广泛的实验,分析LLM在不同任务(如自然语言推理和问答)中对隐喻的处理方式。通过控制不同的提示配置,并分析LLM的性能与各种特征(如词汇重叠、句子长度和隐喻内容)之间的关系,从而揭示LLM在隐喻理解中真正依赖的因素。

技术框架:本文采用的实验框架包括以下几个主要步骤:1) 选择多个公开的、包含隐喻注释的数据集;2) 设计不同的自然语言推理(NLI)和问答(QA)任务;3) 使用不同的大语言模型(具体模型未明确说明,属于通用LLM);4) 设计不同的提示配置,例如改变提示的措辞或提供不同的上下文信息;5) 评估LLM在不同任务和提示配置下的性能;6) 分析LLM的性能与各种特征之间的关系,例如词汇重叠、句子长度和隐喻内容。

关键创新:本文的关键创新在于对LLM的隐喻理解能力进行了更全面和现实的评估。与之前的研究相比,本文使用了更多样化的数据集和任务,并分析了LLM的性能与各种特征之间的关系。通过这种方式,本文揭示了LLM在隐喻理解中过度依赖表面特征的现象,并指出了现有评估框架的局限性。

关键设计:论文的关键设计在于使用了多个公开数据集,这些数据集包含人工标注的隐喻信息,从而能够更准确地评估LLM的隐喻理解能力。此外,论文还设计了不同的提示配置,以探索LLM在不同上下文下的表现。具体的参数设置、损失函数、网络结构等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM在隐喻理解任务中的表现更多地受到词汇重叠和句子长度等表面特征的影响,而非隐喻内容本身。这暗示了LLM的隐喻理解能力可能被高估,需要更精细的评估方法和更深入的模型设计。

🎯 应用场景

该研究成果可应用于改进大语言模型的隐喻理解能力,提升其在对话系统、文本摘要、情感分析等领域的表现。更准确的隐喻理解有助于AI系统更好地理解人类意图,从而实现更自然、更有效的交互。未来的研究可以基于此,开发更鲁棒的隐喻理解模型。

📄 摘要(原文)

This paper presents a comprehensive evaluation of the capabilities of Large Language Models (LLMs) in metaphor interpretation across multiple datasets, tasks, and prompt configurations. Although metaphor processing has gained significant attention in Natural Language Processing (NLP), previous research has been limited to single-dataset evaluations and specific task settings, often using artificially constructed data through lexical replacement. We address these limitations by conducting extensive experiments using diverse publicly available datasets with inference and metaphor annotations, focusing on Natural Language Inference (NLI) and Question Answering (QA) tasks. The results indicate that LLMs' performance is more influenced by features like lexical overlap and sentence length than by metaphorical content, demonstrating that any alleged emergent abilities of LLMs to understand metaphorical language are the result of a combination of surface-level features, in-context learning, and linguistic knowledge. This work provides critical insights into the current capabilities and limitations of LLMs in processing figurative language, highlighting the need for more realistic evaluation frameworks in metaphor interpretation tasks. Data and code are publicly available.