Metaphor identification using large language models: A comparison of RAG, prompt engineering, and fine-tuning
作者: Matteo Fuoli, Weihang Huang, Jeannette Littlemore, Sarah Turner, Ellen Wilding
分类: cs.CL, cs.AI
发布日期: 2025-09-29 (更新: 2025-10-01)
💡 一句话要点
利用大型语言模型进行隐喻识别:比较RAG、提示工程和微调方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐喻识别 大型语言模型 检索增强生成 提示工程 微调 自然语言处理 文本分析
📋 核心要点
- 现有隐喻识别依赖人工标注,成本高昂且难以大规模应用,阻碍了对认知、情感和意识形态的深入分析。
- 论文探索了利用大型语言模型自动化隐喻识别,比较了检索增强生成、提示工程和微调三种方法。
- 实验结果表明,微调后的LLM在隐喻识别任务上表现出色,中值F1值达到0.79,为自动化隐喻分析提供了可能。
📝 摘要(中文)
隐喻是话语中普遍存在的特征,也是考察认知、情感和意识形态的有力工具。然而,由于隐喻的上下文敏感性,大规模分析一直受到手动标注需求的限制。本研究探讨了大型语言模型(LLMs)在自动化全文隐喻识别方面的潜力。我们比较了三种方法:(i)检索增强生成(RAG),其中模型被提供一个代码本,并被指示根据其规则和示例来注释文本;(ii)提示工程,我们设计特定于任务的口头指令;以及(iii)微调,其中模型在手动编码的文本上进行训练以优化性能。在提示工程中,我们测试了零样本、少样本和思维链策略。我们的结果表明,最先进的闭源LLM可以实现高精度,其中微调产生的中值F1分数为0.79。人类和LLM输出的比较表明,大多数差异是系统性的,反映了隐喻理论中众所周知的灰色区域和概念挑战。我们认为,LLM可以用于至少部分地自动化隐喻识别,并且可以作为开发和改进隐喻识别协议及其基础理论的试验台。
🔬 方法详解
问题定义:论文旨在解决隐喻识别的自动化问题。现有方法主要依赖人工标注,耗时耗力,难以应用于大规模文本分析。因此,如何利用大型语言模型自动识别文本中的隐喻是本研究的核心问题。
核心思路:论文的核心思路是利用大型语言模型强大的语言理解和生成能力,通过不同的方法(RAG、提示工程、微调)来指导模型进行隐喻识别。通过比较不同方法的性能,探索LLM在隐喻识别任务中的最佳应用方式。
技术框架:论文比较了三种主要的技术框架: 1. 检索增强生成 (RAG):模型首先从一个包含隐喻规则和示例的代码本中检索相关信息,然后基于检索到的信息生成隐喻标注。 2. 提示工程:通过设计不同的提示(零样本、少样本、思维链),引导模型理解任务并进行隐喻识别。 3. 微调:使用人工标注的隐喻数据集对预训练的LLM进行微调,使其更好地适应隐喻识别任务。
关键创新:论文的关键创新在于系统性地比较了RAG、提示工程和微调三种方法在隐喻识别任务中的性能。此外,论文还分析了LLM与人类标注结果的差异,揭示了LLM在隐喻识别中存在的挑战和潜在改进方向。
关键设计:在提示工程中,论文尝试了零样本、少样本和思维链等不同的提示策略,以探索最佳的提示方式。在微调过程中,使用了人工标注的隐喻数据集,并优化了模型的训练参数,以提高模型的隐喻识别精度。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。
📊 实验亮点
实验结果表明,经过微调的LLM在隐喻识别任务中取得了最佳性能,中值F1分数为0.79。这表明LLM在自动化隐喻识别方面具有巨大的潜力。此外,论文还分析了LLM与人类标注结果的差异,发现大多数差异是系统性的,反映了隐喻理论中存在的灰色区域和概念挑战。
🎯 应用场景
该研究成果可应用于自然语言处理、计算社会科学、心理学等领域。例如,可以用于分析新闻报道中的隐喻,从而了解媒体的意识形态倾向;也可以用于研究文学作品中的隐喻,从而深入理解作者的创作意图。此外,该技术还可以用于开发智能文本分析工具,辅助研究人员进行大规模文本数据的分析。
📄 摘要(原文)
Metaphor is a pervasive feature of discourse and a powerful lens for examining cognition, emotion, and ideology. Large-scale analysis, however, has been constrained by the need for manual annotation due to the context-sensitive nature of metaphor. This study investigates the potential of large language models (LLMs) to automate metaphor identification in full texts. We compare three methods: (i) retrieval-augmented generation (RAG), where the model is provided with a codebook and instructed to annotate texts based on its rules and examples; (ii) prompt engineering, where we design task-specific verbal instructions; and (iii) fine-tuning, where the model is trained on hand-coded texts to optimize performance. Within prompt engineering, we test zero-shot, few-shot, and chain-of-thought strategies. Our results show that state-of-the-art closed-source LLMs can achieve high accuracy, with fine-tuning yielding a median F1 score of 0.79. A comparison of human and LLM outputs reveals that most discrepancies are systematic, reflecting well-known grey areas and conceptual challenges in metaphor theory. We propose that LLMs can be used to at least partly automate metaphor identification and can serve as a testbed for developing and refining metaphor identification protocols and the theory that underpins them.