ConMeC: A Dataset for Metonymy Resolution with Common Nouns
作者: Saptarshi Ghosh, Tianyu Jiang
分类: cs.CL
发布日期: 2025-02-10 (更新: 2025-02-11)
备注: NAACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
ConMeC:一个用于普通名词转喻消解的数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 转喻消解 普通名词 数据集 大型语言模型 思维链提示
📋 核心要点
- 现有转喻消解工作主要关注命名实体,忽略了普通名词转喻的普遍性和挑战性,限制了NLP系统的理解能力。
- 论文构建了ConMeC数据集,包含6000个句子,标注了普通名词是否为转喻用法,并提出基于思维链提示的LLM转喻检测方法。
- 实验表明,LLM在明确定义的转喻类别上表现与BERT相当,但在需要细致语义理解的场景中仍有不足,凸显了数据集的价值。
📝 摘要(中文)
转喻在我们日常交流中扮演着重要角色。人们自然地使用事物最显著的属性或常见的相关概念来思考。例如,当我们说“公交车今天决定跳过我们的站点”时,实际上指的是公交车司机做出了决定,而不是公交车本身。以往关于转喻消解的研究主要集中在命名实体上。然而,涉及普通名词(如桌子、婴儿和学校)的转喻也是一种常见且具有挑战性的现象。我们认为,自然语言处理系统应该能够识别上下文中普通名词的转喻用法。我们创建了一个新的转喻数据集ConMeC,它由6000个句子组成,每个句子都与一个目标普通名词配对,并由人工标注以指示该普通名词在该上下文中是否被转喻使用。我们还介绍了一种基于思维链的提示方法,用于使用大型语言模型(LLM)检测转喻。我们在我们的数据集和另外三个转喻数据集上评估了我们基于LLM的pipeline以及一个有监督的BERT模型。我们的实验结果表明,LLM可以在定义明确的转喻类别上达到与有监督的BERT模型相当的性能,但在需要细致的语义理解的实例上仍然存在困难。我们的数据集可在https://github.com/SaptGhosh/ConMeC公开获取。
🔬 方法详解
问题定义:论文旨在解决普通名词转喻消解问题。现有方法主要关注命名实体,忽略了普通名词转喻的普遍性和复杂性,导致NLP系统在理解日常语言中的细微语义差异时存在困难。缺乏高质量的普通名词转喻数据集也是一个重要瓶颈。
核心思路:论文的核心思路是构建一个高质量的普通名词转喻数据集ConMeC,并探索利用大型语言模型(LLM)结合思维链提示(Chain-of-Thought prompting)来解决该问题。通过人工标注数据,为模型提供学习转喻现象的基础。利用思维链提示,引导LLM逐步推理,从而更好地理解上下文语义,提高转喻识别的准确性。
技术框架:整体框架包含两个主要部分:数据集构建和模型评估。数据集构建阶段,作者收集了包含普通名词的句子,并由人工标注人员判断目标名词是否被转喻使用。模型评估阶段,作者将ConMeC数据集用于训练和评估基于BERT的监督模型,以及基于LLM和思维链提示的pipeline。评估指标包括准确率、召回率和F1值。
关键创新:论文的关键创新在于:1) 构建了首个大规模的普通名词转喻数据集ConMeC,填补了该领域的空白。2) 提出了基于思维链提示的LLM转喻检测方法,探索了LLM在解决复杂语义理解任务中的潜力。3) 对比了LLM和监督模型在转喻消解任务上的性能,揭示了LLM在特定场景下的优势和局限性。
关键设计:在数据集构建方面,作者精心设计了标注指南,确保标注的一致性和准确性。在LLM pipeline中,作者使用了思维链提示,引导LLM逐步推理,例如,首先识别目标名词的字面意义,然后分析上下文,判断是否存在语义冲突,最后给出是否为转喻的判断。具体的LLM选择和提示语设计未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在ConMeC数据集上,基于思维链提示的LLM在明确定义的转喻类别上表现与监督BERT模型相当。然而,在需要细致语义理解的实例上,LLM仍存在不足。ConMeC数据集的发布为后续研究提供了宝贵资源,促进了普通名词转喻消解领域的发展。
🎯 应用场景
该研究成果可应用于提升自然语言处理系统的语义理解能力,尤其是在对话系统、机器翻译和文本摘要等领域。更准确的转喻消解有助于系统更好地理解用户意图,生成更自然流畅的回复,并提高翻译质量。未来,该研究可扩展到其他类型的转喻现象,进一步提升NLP系统的鲁棒性和泛化能力。
📄 摘要(原文)
Metonymy plays an important role in our daily communication. People naturally think about things using their most salient properties or commonly related concepts. For example, by saying "The bus decided to skip our stop today," we actually mean that the bus driver made the decision, not the bus. Prior work on metonymy resolution has mainly focused on named entities. However, metonymy involving common nouns (such as desk, baby, and school) is also a frequent and challenging phenomenon. We argue that NLP systems should be capable of identifying the metonymic use of common nouns in context. We create a new metonymy dataset ConMeC, which consists of 6,000 sentences, where each sentence is paired with a target common noun and annotated by humans to indicate whether that common noun is used metonymically or not in that context. We also introduce a chain-of-thought based prompting method for detecting metonymy using large language models (LLMs). We evaluate our LLM-based pipeline, as well as a supervised BERT model on our dataset and three other metonymy datasets. Our experimental results demonstrate that LLMs could achieve performance comparable to the supervised BERT model on well-defined metonymy categories, while still struggling with instances requiring nuanced semantic understanding. Our dataset is publicly available at: https://github.com/SaptGhosh/ConMeC.