Metaphor identification using large language models: A comparison of RAG, prompt engineering, and fine-tuning

作者: Matteo Fuoli, Weihang Huang, Jeannette Littlemore, Sarah Turner, Ellen Wilding

分类: cs.CL, cs.AI

发布日期: 2025-09-29 (更新: 2025-10-01)

💡 一句话要点

利用大型语言模型进行隐喻识别：比较RAG、提示工程和微调方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 隐喻识别 大型语言模型 检索增强生成 提示工程 微调 自然语言处理 文本分析

📋 核心要点

现有隐喻识别依赖人工标注，成本高昂且难以大规模应用，阻碍了对认知、情感和意识形态的深入分析。
论文探索了利用大型语言模型自动化隐喻识别，比较了检索增强生成、提示工程和微调三种方法。
实验结果表明，微调后的LLM在隐喻识别任务上表现出色，中值F1值达到0.79，为自动化隐喻分析提供了可能。

📝 摘要（中文）

隐喻是话语中普遍存在的特征，也是考察认知、情感和意识形态的有力工具。然而，由于隐喻的上下文敏感性，大规模分析一直受到手动标注需求的限制。本研究探讨了大型语言模型（LLMs）在自动化全文隐喻识别方面的潜力。我们比较了三种方法：（i）检索增强生成（RAG），其中模型被提供一个代码本，并被指示根据其规则和示例来注释文本；（ii）提示工程，我们设计特定于任务的口头指令；以及（iii）微调，其中模型在手动编码的文本上进行训练以优化性能。在提示工程中，我们测试了零样本、少样本和思维链策略。我们的结果表明，最先进的闭源LLM可以实现高精度，其中微调产生的中值F1分数为0.79。人类和LLM输出的比较表明，大多数差异是系统性的，反映了隐喻理论中众所周知的灰色区域和概念挑战。我们认为，LLM可以用于至少部分地自动化隐喻识别，并且可以作为开发和改进隐喻识别协议及其基础理论的试验台。

🔬 方法详解

问题定义：论文旨在解决隐喻识别的自动化问题。现有方法主要依赖人工标注，耗时耗力，难以应用于大规模文本分析。因此，如何利用大型语言模型自动识别文本中的隐喻是本研究的核心问题。

核心思路：论文的核心思路是利用大型语言模型强大的语言理解和生成能力，通过不同的方法（RAG、提示工程、微调）来指导模型进行隐喻识别。通过比较不同方法的性能，探索LLM在隐喻识别任务中的最佳应用方式。

技术框架：论文比较了三种主要的技术框架： 1. 检索增强生成 (RAG)：模型首先从一个包含隐喻规则和示例的代码本中检索相关信息，然后基于检索到的信息生成隐喻标注。 2. 提示工程：通过设计不同的提示（零样本、少样本、思维链），引导模型理解任务并进行隐喻识别。 3. 微调：使用人工标注的隐喻数据集对预训练的LLM进行微调，使其更好地适应隐喻识别任务。

关键创新：论文的关键创新在于系统性地比较了RAG、提示工程和微调三种方法在隐喻识别任务中的性能。此外，论文还分析了LLM与人类标注结果的差异，揭示了LLM在隐喻识别中存在的挑战和潜在改进方向。

关键设计：在提示工程中，论文尝试了零样本、少样本和思维链等不同的提示策略，以探索最佳的提示方式。在微调过程中，使用了人工标注的隐喻数据集，并优化了模型的训练参数，以提高模型的隐喻识别精度。具体的损失函数和网络结构细节在论文中未明确给出，属于未知信息。

📊 实验亮点

实验结果表明，经过微调的LLM在隐喻识别任务中取得了最佳性能，中值F1分数为0.79。这表明LLM在自动化隐喻识别方面具有巨大的潜力。此外，论文还分析了LLM与人类标注结果的差异，发现大多数差异是系统性的，反映了隐喻理论中存在的灰色区域和概念挑战。

🎯 应用场景

该研究成果可应用于自然语言处理、计算社会科学、心理学等领域。例如，可以用于分析新闻报道中的隐喻，从而了解媒体的意识形态倾向；也可以用于研究文学作品中的隐喻，从而深入理解作者的创作意图。此外，该技术还可以用于开发智能文本分析工具，辅助研究人员进行大规模文本数据的分析。

📄 摘要（原文）

Metaphor is a pervasive feature of discourse and a powerful lens for examining cognition, emotion, and ideology. Large-scale analysis, however, has been constrained by the need for manual annotation due to the context-sensitive nature of metaphor. This study investigates the potential of large language models (LLMs) to automate metaphor identification in full texts. We compare three methods: (i) retrieval-augmented generation (RAG), where the model is provided with a codebook and instructed to annotate texts based on its rules and examples; (ii) prompt engineering, where we design task-specific verbal instructions; and (iii) fine-tuning, where the model is trained on hand-coded texts to optimize performance. Within prompt engineering, we test zero-shot, few-shot, and chain-of-thought strategies. Our results show that state-of-the-art closed-source LLMs can achieve high accuracy, with fine-tuning yielding a median F1 score of 0.79. A comparison of human and LLM outputs reveals that most discrepancies are systematic, reflecting well-known grey areas and conceptual challenges in metaphor theory. We propose that LLMs can be used to at least partly automate metaphor identification and can serve as a testbed for developing and refining metaphor identification protocols and the theory that underpins them.

Metaphor identification using large language models: A comparison of RAG, prompt engineering, and fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册