SwanNLP at SemEval-2026 Task 5: An LLM-based Framework for Plausibility Scoring in Narrative Word Sense Disambiguation

📄 arXiv: 2604.16262v1 📥 PDF

作者: Deshan Sumanathilaka, Nicholas Micallef, Julian Hough, Saman Jayasinghe

分类: cs.CL

发布日期: 2026-04-17

备注: 6 pages, 5 Tables, 1 figure, Accepted to SemEval 2026


💡 一句话要点

提出基于LLM的框架以解决叙事文本中的词义消歧问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 词义消歧 合理性评分 结构化推理 自然语言处理 模型集成

📋 核心要点

  1. 现有方法在真实叙事语境中应用不足,缺乏对词义合理性的有效评估。
  2. 论文提出了一种基于LLM的框架,通过结构化推理机制进行同义词合理性评分。
  3. 实验结果显示,动态少样本提示的商业大参数LLM能有效模拟人类的合理性判断,模型集成略微提升性能。

📝 摘要(中文)

近年来,语言模型的进步显著提升了自然语言理解能力。尽管现有基准表明大型语言模型(LLMs)在消歧方面表现良好,但其在真实叙事语境中的实际应用仍未得到充分探索。SemEval-2026任务5通过引入一个预测短篇故事中词义人类感知合理性的任务来填补这一空白。本文提出了一种基于LLM的框架,利用结构化推理机制对叙事文本中的同义词进行合理性评分。我们考察了低参数LLM的微调与多样化推理策略,以及对大参数模型的动态少样本提示对准确识别词义和合理性估计的影响。实验结果表明,商业大参数LLM结合动态少样本提示能够接近人类的合理性判断。

🔬 方法详解

问题定义:本文旨在解决叙事文本中同义词的合理性评分问题。现有方法在真实场景中的应用效果不佳,缺乏对人类感知的准确模拟。

核心思路:通过构建一个基于大型语言模型的框架,结合结构化推理机制,来提高对同义词合理性的评分准确性。该设计旨在利用LLM的强大语言理解能力,增强模型在叙事上下文中的表现。

技术框架:整体架构包括低参数LLM的微调、动态少样本提示以及模型集成。首先对低参数模型进行多样化推理策略的微调,然后利用大参数模型进行动态提示,最后通过模型集成提升整体性能。

关键创新:最重要的创新在于结合了动态少样本提示与低参数模型的微调,显著提升了词义消歧的合理性评分能力。这一方法与传统的静态提示或单一模型预测存在本质区别。

关键设计:在参数设置上,低参数模型采用多样化的推理策略,损失函数设计为优化合理性评分的准确性,网络结构则结合了LLM的特性以增强上下文理解能力。实验中还探索了不同模型集成策略的效果。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用动态少样本提示的商业大参数LLM在合理性判断上与人类评估高度一致,模型集成策略略微提升了性能,模拟了五位人类标注者的判断模式,相较于单模型预测表现更佳。

🎯 应用场景

该研究的潜在应用领域包括智能文本分析、自动内容生成和人机交互等。通过提高叙事文本中词义的合理性评分能力,可以为自然语言处理系统提供更准确的上下文理解,从而提升用户体验和系统的智能化水平。未来,该框架有望在教育、娱乐和信息检索等多个领域发挥重要作用。

📄 摘要(原文)

Recent advances in language models have substantially improved Natural Language Understanding (NLU). Although widely used benchmarks suggest that Large Language Models (LLMs) can effectively disambiguate, their practical applicability in real-world narrative contexts remains underexplored. SemEval-2026 Task 5 addresses this gap by introducing a task that predicts the human-perceived plausibility of a word sense within a short story. In this work, we propose an LLM-based framework for plausibility scoring of homonymous word senses in narrative texts using a structured reasoning mechanism. We examine the impact of fine-tuning low-parameter LLMs with diverse reasoning strategies, alongside dynamic few-shot prompting for large-parameter models, on accurate sense identification and plausibility estimation. Our results show that commercial large-parameter LLMs with dynamic few-shot prompting closely replicate human-like plausibility judgments. Furthermore, model ensembling slightly improves performance, better simulating the agreement patterns of five human annotators compared to single-model predictions