When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification

📄 arXiv: 2507.20700v1 📥 PDF

作者: Hanna Shcharbakova, Tatiana Anikina, Natalia Skachkova, Josef van Genabith

分类: cs.CL

发布日期: 2025-07-28

备注: Published at the FEVER Workshop, ACL 2025


💡 一句话要点

多语言细粒度声明验证:小模型XLM-R超越大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言事实核查 细粒度分类 大型语言模型 小型语言模型 XLM-R X-Fact数据集 信息验证 自然语言处理

📋 核心要点

  1. 现有方法难以有效处理多语言环境下细粒度的声明验证,尤其是在数据不平衡的情况下。
  2. 论文核心思想是探索小型专用模型在多语言细粒度事实核查任务中的潜力,并与大型语言模型进行对比。
  3. 实验结果表明,小型模型XLM-R在X-Fact数据集上显著优于大型语言模型,为多语言事实核查建立了新的基准。

📝 摘要(中文)

多语言虚假信息的快速传播需要强大的自动化事实核查系统,该系统能够处理跨多种语言的细粒度真实性评估。虽然大型语言模型在许多NLP任务中表现出了卓越的能力,但它们在具有细微分类方案的多语言声明验证方面的有效性仍未得到充分研究。我们对X-Fact数据集上的五个最先进的语言模型进行了全面评估,该数据集涵盖25种语言和七个不同的真实性类别。我们的实验比较了小型语言模型(基于编码器的XLM-R和mT5)与最新的仅解码器LLM(Llama 3.1、Qwen 2.5、Mistral Nemo),使用了提示和微调方法。令人惊讶的是,我们发现XLM-R(2.7亿参数)大大优于所有测试的LLM(7-120亿参数),实现了57.7%的宏F1值,而最佳LLM性能为16.9%。这比之前的最先进水平(41.9%)提高了15.8%,为多语言事实核查建立了新的性能基准。我们的分析揭示了LLM行为中的问题模式,包括在利用证据方面的系统性困难以及在不平衡数据设置中对频繁类别的明显偏差。这些发现表明,对于细粒度的多语言事实核查,较小的专用模型可能比通用大型模型更有效,这对事实核查系统的实际部署具有重要意义。

🔬 方法详解

问题定义:论文旨在解决多语言环境下细粒度的事实核查问题。现有方法,特别是依赖大型语言模型的方法,在处理多语言和细粒度分类时表现不佳,尤其是在数据类别不平衡的情况下,容易产生偏差,并且难以有效利用证据。

核心思路:论文的核心思路是探索小型专用模型在多语言细粒度事实核查任务中的有效性。作者认为,相比于通用的大型语言模型,针对特定任务进行优化的小型模型可能更适合处理细粒度的多语言信息,并且能够更好地避免大型模型中存在的偏差和泛化问题。

技术框架:论文采用对比实验的方法,比较了小型语言模型(XLM-R, mT5)和大型语言模型(Llama 3.1, Qwen 2.5, Mistral Nemo)在X-Fact数据集上的性能。实验中使用了prompting和fine-tuning两种方法来训练和评估模型。X-Fact数据集包含25种语言,并对声明的真实性进行了细粒度的分类(7个类别)。

关键创新:论文的关键创新在于发现小型语言模型XLM-R在多语言细粒度事实核查任务中优于大型语言模型。这一发现挑战了当前对大型语言模型能力的普遍认知,并表明在特定任务上,小型专用模型可能更具优势。

关键设计:论文的关键设计包括:1) 使用X-Fact数据集进行评估,该数据集具有多语言和细粒度的特点;2) 对比了不同规模和架构的语言模型;3) 采用了prompting和fine-tuning两种训练方法;4) 详细分析了实验结果,揭示了大型语言模型在处理细粒度多语言事实核查时存在的问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,小型语言模型XLM-R在X-Fact数据集上取得了显著的性能提升,宏F1值达到57.7%,超过了所有测试的大型语言模型。相比之下,最佳LLM的宏F1值为16.9%。XLM-R的性能比之前的最先进水平提高了15.8%(从41.9%提升到57.7%),为多语言事实核查建立了新的性能基准。

🎯 应用场景

该研究成果可应用于自动化新闻事实核查、社交媒体内容审核、虚假信息检测等领域。通过提升多语言环境下细粒度事实核查的准确性,有助于减少虚假信息的传播,维护网络信息安全,并为公众提供更可靠的信息来源。

📄 摘要(原文)

The rapid spread of multilingual misinformation requires robust automated fact verification systems capable of handling fine-grained veracity assessments across diverse languages. While large language models have shown remarkable capabilities across many NLP tasks, their effectiveness for multilingual claim verification with nuanced classification schemes remains understudied. We conduct a comprehensive evaluation of five state-of-the-art language models on the X-Fact dataset, which spans 25 languages with seven distinct veracity categories. Our experiments compare small language models (encoder-based XLM-R and mT5) with recent decoder-only LLMs (Llama 3.1, Qwen 2.5, Mistral Nemo) using both prompting and fine-tuning approaches. Surprisingly, we find that XLM-R (270M parameters) substantially outperforms all tested LLMs (7-12B parameters), achieving 57.7% macro-F1 compared to the best LLM performance of 16.9%. This represents a 15.8% improvement over the previous state-of-the-art (41.9%), establishing new performance benchmarks for multilingual fact verification. Our analysis reveals problematic patterns in LLM behavior, including systematic difficulties in leveraging evidence and pronounced biases toward frequent categories in imbalanced data settings. These findings suggest that for fine-grained multilingual fact verification, smaller specialized models may be more effective than general-purpose large models, with important implications for practical deployment of fact-checking systems.