Coreference Resolution for Vietnamese Narrative Texts

📄 arXiv: 2504.19606v1 📥 PDF

作者: Hieu-Dai Tran, Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen

分类: cs.CL

发布日期: 2025-04-28

备注: Accepted at PACLIC 2024


💡 一句话要点

针对越南语叙事文本,提出并评估了基于大型语言模型的共指消解方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 共指消解 越南语 大型语言模型 低资源语言 自然语言处理

📋 核心要点

  1. 越南语共指消解面临低资源和数据集匮乏的挑战,现有方法难以有效处理。
  2. 论文核心在于利用大型语言模型(LLMs)的强大能力,直接应用于越南语共指消解任务。
  3. 实验表明,GPT-4在越南语共指消解任务上显著优于GPT-3.5-Turbo,展现了LLM的潜力。

📝 摘要(中文)

共指消解是自然语言处理(NLP)中的一项重要任务,旨在识别和链接文本中指向同一实体的不同表达。对于越南语这种低资源语言来说,由于标注数据集有限,这项任务尤其具有挑战性。为了应对这些挑战,我们使用来自VnExpress(一个广泛阅读的越南语在线新闻平台)的叙事文本,开发了一个全面的标注数据集。我们制定了详细的实体标注指南,重点是确保一致性和准确性。此外,我们评估了大型语言模型(LLMs),特别是GPT-3.5-Turbo和GPT-4,在这个数据集上的性能。结果表明,GPT-4在准确性和响应一致性方面均显著优于GPT-3.5-Turbo,使其成为越南语共指消解更可靠的工具。

🔬 方法详解

问题定义:论文旨在解决越南语叙事文本中的共指消解问题。现有方法在越南语这种低资源语言上表现不佳,主要原因是缺乏高质量的标注数据集,导致模型训练不足,泛化能力差。此外,越南语本身的语言特性也增加了共指消解的难度。

核心思路:论文的核心思路是利用预训练的大型语言模型(LLMs),特别是GPT-3.5-Turbo和GPT-4,直接进行越南语共指消解。这种方法避免了从头开始训练模型,利用了LLM在大量文本数据上学习到的通用语言知识,从而在低资源场景下也能取得较好的效果。

技术框架:论文的技术框架主要包括两个部分:一是构建高质量的越南语共指消解数据集,二是评估LLM在该数据集上的性能。数据集构建过程中,作者从VnExpress新闻平台收集叙事文本,并制定详细的标注指南,确保标注的一致性和准确性。性能评估方面,作者直接使用GPT-3.5-Turbo和GPT-4进行共指消解,并比较它们的准确性和响应一致性。

关键创新:论文的关键创新在于将大型语言模型应用于越南语共指消解任务,并验证了其有效性。以往的研究主要集中在构建特定于越南语的共指消解模型,而本文则探索了利用通用LLM解决低资源语言共指消解问题的可能性。

关键设计:论文的关键设计在于数据集的构建和LLM的评估。在数据集构建方面,作者制定了详细的标注指南,并进行了严格的质量控制,确保数据集的质量。在LLM评估方面,作者直接使用LLM的API进行共指消解,并采用标准的共指消解评价指标(具体指标未知)来评估模型的性能。具体的参数设置和损失函数等技术细节在论文中没有详细描述,可能使用了LLM的默认设置。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,GPT-4在越南语共指消解任务上显著优于GPT-3.5-Turbo,在准确性和响应一致性方面均有提升。具体提升幅度未知,但结果表明GPT-4更适合作为越南语共指消解的工具。该研究验证了大型语言模型在低资源语言共指消解任务中的潜力。

🎯 应用场景

该研究成果可应用于越南语信息抽取、机器翻译、问答系统等多个领域。高质量的共指消解能够提升下游任务的性能,例如,在机器翻译中,可以确保指代一致性,提高翻译质量。此外,该研究也为其他低资源语言的共指消解提供了借鉴,具有重要的实际价值和潜在影响。

📄 摘要(原文)

Coreference resolution is a vital task in natural language processing (NLP) that involves identifying and linking different expressions in a text that refer to the same entity. This task is particularly challenging for Vietnamese, a low-resource language with limited annotated datasets. To address these challenges, we developed a comprehensive annotated dataset using narrative texts from VnExpress, a widely-read Vietnamese online news platform. We established detailed guidelines for annotating entities, focusing on ensuring consistency and accuracy. Additionally, we evaluated the performance of large language models (LLMs), specifically GPT-3.5-Turbo and GPT-4, on this dataset. Our results demonstrate that GPT-4 significantly outperforms GPT-3.5-Turbo in terms of both accuracy and response consistency, making it a more reliable tool for coreference resolution in Vietnamese.