NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

📄 arXiv: 2603.08256v1 📥 PDF

作者: Tong Wu, Thanet Markchom, Huizhi Liang

分类: cs.CL

发布日期: 2026-03-09

🔗 代码/项目: GITHUB


💡 一句话要点

针对词义合理性评级,提出基于结构化提示和决策规则的大语言模型方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 词义合理性评级 自然语言处理 大语言模型 结构化提示 决策规则

📋 核心要点

  1. 现有词义合理性评级方法难以有效利用上下文信息,且缺乏明确的评判标准,导致预测结果与人类感知存在偏差。
  2. 论文提出一种基于结构化提示的大语言模型方法,将评估分解为叙事成分,并结合显式决策规则进行评级校准。
  3. 实验结果表明,该方法显著优于微调模型和基于嵌入的方法,证明了结构化提示和决策规则在词义合理性评级中的有效性。

📝 摘要(中文)

词义合理性评级任务要求在包含歧义同形异义词的短篇叙事故事的上下文中,预测给定词义在1到5的范围内,人类感知到的合理性。本文系统地比较了三种方法:(1)基于嵌入的方法,将句子嵌入与标准回归器配对;(2)使用参数高效适应的Transformer微调;(3)使用结构化推理和显式决策规则的大语言模型(LLM)提示。最佳系统采用了一种结构化提示策略,将评估分解为叙事组成部分(前文、目标句子、结尾),并应用显式决策规则进行评级校准。分析表明,使用决策规则的结构化提示明显优于微调模型和基于嵌入的方法,并且对于此任务,提示设计比模型规模更重要。代码已在https://github.com/tongwu17/SemEval-2026-Task5上公开。

🔬 方法详解

问题定义:论文旨在解决词义合理性评级问题,即在给定上下文(短篇叙事故事)中,评估特定词义的合理程度。现有方法,如基于嵌入的方法和Transformer微调,在捕捉上下文信息和建立明确的评判标准方面存在不足,导致预测结果与人类直觉存在偏差。

核心思路:论文的核心思路是利用大语言模型(LLM)的强大推理能力,通过结构化提示(Structured Prompting)将评估过程分解为多个叙事成分,并结合显式决策规则(Explicit Decision Rules)来校准评级结果。这种方法旨在更全面地考虑上下文信息,并提供更明确的评判标准,从而提高评级准确性。

技术框架:整体框架包括以下几个主要阶段:1)输入:接收包含歧义词的短篇叙事故事;2)结构化提示:将故事分解为前文(precontext)、目标句子(target sentence)和结尾(ending)三个部分,并构建相应的提示模板;3)LLM推理:使用LLM对每个叙事成分进行推理,评估其对目标词义合理性的影响;4)决策规则:应用预定义的决策规则,基于LLM的推理结果生成最终的合理性评级;5)输出:输出1到5之间的合理性评级。

关键创新:论文的关键创新在于将结构化提示和显式决策规则相结合,用于词义合理性评级。与传统的端到端方法相比,这种方法能够更有效地利用上下文信息,并提供更明确的评判标准。此外,论文还发现,对于此任务,提示设计比模型规模更重要。

关键设计:结构化提示的设计至关重要,需要精心设计提示模板,以引导LLM关注关键的叙事成分。决策规则的设计也需要仔细考虑,以确保评级结果与人类直觉一致。论文中具体使用的LLM模型和提示模板的具体内容未知,但强调了prompt的设计对最终结果的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于结构化提示和决策规则的大语言模型方法在词义合理性评级任务上取得了显著的性能提升,优于基于嵌入的方法和Transformer微调方法。具体性能数据未知,但论文强调结构化提示和决策规则的有效性,以及提示设计的重要性。

🎯 应用场景

该研究成果可应用于自然语言理解、机器翻译、文本生成等领域,提高机器对语言歧义的理解能力。在智能客服、情感分析等实际应用中,能够更准确地理解用户意图,提升用户体验。未来,该方法有望扩展到其他需要细粒度语义理解的任务中。

📄 摘要(原文)

Word sense plausibility rating requires predicting the human-perceived plausibility of a given word sense on a 1--5 scale in the context of short narrative stories containing ambiguous homonyms. This paper systematically compares three approaches: (1) embedding-based methods pairing sentence embeddings with standard regressors, (2) transformer fine-tuning with parameter-efficient adaptation, and (3) large language model (LLM) prompting with structured reasoning and explicit decision rules. The best-performing system employs a structured prompting strategy that decomposes evaluation into narrative components (precontext, target sentence, ending) and applies explicit decision rules for rating calibration. The analysis reveals that structured prompting with decision rules substantially outperforms both fine-tuned models and embedding-based approaches, and that prompt design matters more than model scale for this task. The code is publicly available at https://github.com/tongwu17/SemEval-2026-Task5.