Multilingual and Cross-Lingual Citation Needed Detection on Wikipedia for Lower-Resource Languages
作者: Gerrit Quaremba, Amy Rechkemmer, Elizabeth Black, Denny Vrandečić, Elena Simperl
分类: cs.CL
发布日期: 2026-05-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出MCN多语言语料库,利用小型语言模型解决低资源语言维基百科的Citation Needed检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Citation Needed Detection 多语言学习 跨语言学习 低资源语言 维基百科 小型语言模型 自动事实核查
📋 核心要点
- 现有Citation Needed Detection (CND)研究主要集中在高资源语言,忽略了低资源语言的需求,且依赖大型语言模型(LLM)。
- 论文提出MCN多语言CND语料库,并探索使用小型解码器语言模型(SLM)进行跨语言迁移学习的方法。
- 实验表明,使用编码器风格目标微调的SLM在多语言和跨语言CND任务上优于prompted LLM,尤其是在低资源语言上。
📝 摘要(中文)
在自动事实核查(AFC)中,check-worthiness检测用于识别需要基于领域特定标准进行验证的声明。在维基百科上,这项任务表现为Citation Needed Detection (CND),它标记缺乏支持引用的声明。然而,现有的研究主要忽略了低资源语言,并且最近的AFC流程依赖于大型语言模型(LLM),这对于低资源组织来说是不可访问的。我们引入了MCN,一个多语言CND语料库,涵盖了三种资源级别的18种语言,我们在此基础上对小型基于解码器的语言模型(SLM)进行了广泛的研究。我们的实验表明,使用编码器风格目标微调的SLM在各种语言上都显著优于prompted LLM。我们进一步提出了关于跨语言CND的首批研究之一,证明了仅在英语声明上微调的SLM超过了LLM,即使几乎没有目标语言的适应。我们的发现对于低资源维基百科社区具有重要的意义,并表明对于CND来说,紧凑的、特定于任务的模型比LLM更可取。我们发布了所有数据和代码在https://github.com/gerritq/mcn。
🔬 方法详解
问题定义:论文旨在解决低资源语言维基百科中Citation Needed Detection (CND)问题。现有方法主要依赖于大型语言模型(LLM),但LLM对于资源有限的组织来说成本高昂且难以获取。此外,现有研究对低资源语言的关注不足,缺乏相应的多语言数据集。
核心思路:论文的核心思路是利用小型解码器语言模型(SLM)进行微调,并探索跨语言迁移学习的方法,以解决低资源语言的CND问题。通过在英语等高资源语言上训练SLM,然后将其迁移到低资源语言,可以有效利用已有的知识,减少对目标语言标注数据的需求。
技术框架:整体框架包括以下几个主要步骤:1) 构建多语言CND语料库MCN,涵盖18种语言;2) 选择小型解码器语言模型(SLM)作为基础模型;3) 使用编码器风格的目标函数对SLM进行微调;4) 在多语言和跨语言环境下评估SLM的性能。具体来说,跨语言实验包括zero-shot迁移和少量样本微调两种方式。
关键创新:论文的关键创新在于:1) 构建了MCN多语言CND语料库,为低资源语言的CND研究提供了数据基础;2) 证明了小型解码器语言模型(SLM)在CND任务上可以取得优于大型语言模型的性能,尤其是在低资源语言上;3) 探索了跨语言迁移学习在CND任务上的有效性,证明了仅在英语数据上训练的SLM可以通过迁移学习提升在其他语言上的性能。
关键设计:论文的关键设计包括:1) 语料库构建:MCN语料库包含了18种语言,并根据资源丰富程度进行了分类;2) 模型选择:选择了小型解码器语言模型(SLM),例如GPT-2,以降低计算成本;3) 训练目标:使用了编码器风格的目标函数,例如masked language modeling,以提升模型的上下文理解能力;4) 评估指标:使用了标准的分类指标,例如准确率、召回率和F1值,来评估模型的性能。
📊 实验亮点
实验结果表明,使用编码器风格目标微调的SLM在多语言CND任务上显著优于prompted LLM。例如,在跨语言CND任务中,仅在英语数据上微调的SLM甚至超过了直接在目标语言上进行prompting的LLM。这表明小型、特定任务的模型在CND任务上更具优势,尤其是在低资源环境下。
🎯 应用场景
该研究成果可应用于自动事实核查、维基百科内容质量评估、信息检索等领域。通过自动检测维基百科中缺乏引用的声明,可以提高维基百科内容的准确性和可信度。此外,该研究提出的跨语言迁移学习方法可以推广到其他低资源语言的自然语言处理任务中,具有广泛的应用前景。
📄 摘要(原文)
In automated fact-checking (AFC), check-worthiness detection identifies claims requiring verification based on domain-specific criteria. On Wikipedia, this task instantiates as Citation Needed Detection (CND), which flags claims lacking supporting citations. However, existing research has largely overlooked lower-resource languages, and recent AFC pipelines rely on large language models (LLMs), which are inaccessible to low-resource organizations. We introduce MCN, a multilingual CND corpus spanning 18 languages across three resource levels, on which we conduct an extensive study of small decoder-based language models (SLMs). Our experiments show that SLMs fine-tuned with an encoder-style objective substantially outperform prompted LLMs across languages. We further present one of the first studies on cross-lingual CND, demonstrating that SLMs fine-tuned solely on English claims surpass LLMs, even with little to no target-language adaptation. Our findings have important implications for lower-resource Wikipedia communities and suggest that compact, task-specific models are preferable to LLMs for CND. We release all data and code at https://github.com/gerritq/mcn