Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

📄 arXiv: 2502.15419v1 📥 PDF

作者: Yi-Ling Chung, Aurora Cobo, Pablo Serna

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-02-21

备注: 15 pages, 1 figure, 18 tables


💡 一句话要点

提出MultiSynFact:基于LLM的多语言事实核查数据集,支持低资源语言。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言事实核查 大型语言模型 数据生成 低资源语言 知识库 自然语言处理

📋 核心要点

  1. 现有自动事实核查系统主要集中在英语,缺乏对其他语言特别是低资源语言的支持。
  2. 利用大型语言模型(LLMs)和维基百科等外部知识,生成高质量的多语言声明-来源对。
  3. 通过实验验证了MultiSynFact数据集的有效性,并开源框架以促进多语言事实核查研究。

📝 摘要(中文)

为了应对在线错误信息的挑战,本研究提出了MultiSynFact,这是一个大规模的多语言事实核查数据集,包含220万个声明-来源对,旨在支持西班牙语、德语、英语和其他低资源语言。该数据集的生成流程利用大型语言模型(LLMs),整合了来自维基百科的外部知识,并结合了严格的声明验证步骤以确保数据质量。我们评估了MultiSynFact在多种模型和实验设置下的有效性。此外,我们开源了一个用户友好的框架,以促进多语言事实核查和数据集生成的进一步研究。

🔬 方法详解

问题定义:现有自动事实核查系统主要集中于英语,缺乏对其他语言的支持,尤其是在低资源语言方面。这限制了事实核查系统在全球范围内的应用,使得针对非英语信息的错误信息难以被有效识别和纠正。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大生成能力,结合外部知识库(如维基百科),自动生成多语言的事实核查数据集。通过精心设计的流程,确保生成的数据集具有高质量和多样性,从而克服现有数据集的局限性。

技术框架:MultiSynFact数据集的生成流程主要包括以下几个阶段:1) 使用LLM生成声明;2) 从维基百科等知识库中检索相关信息作为来源;3) 使用LLM验证声明与来源之间的一致性,进行过滤和修正;4) 将声明-来源对翻译成多种语言,包括西班牙语、德语等。整个流程旨在自动化地生成大规模、高质量的多语言事实核查数据。

关键创新:该论文的关键创新在于利用LLM进行多语言事实核查数据的自动生成,并设计了严格的验证流程以保证数据质量。与传统的人工标注方法相比,该方法能够显著降低成本,并扩展到多种语言,特别是低资源语言。

关键设计:论文中使用了特定的LLM模型(具体模型名称未知),并针对事实核查任务进行了微调(具体微调方法未知)。在声明验证阶段,设计了基于LLM的相似度计算方法,用于判断声明与来源之间的一致性。此外,还采用了数据增强技术,以增加数据集的多样性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用MultiSynFact数据集训练的模型在多语言事实核查任务上取得了显著的性能提升。具体性能数据和对比基线未知,但论文强调了该数据集在支持低资源语言方面的优势。开源的框架也为后续研究提供了便利。

🎯 应用场景

该研究成果可应用于构建多语言自动事实核查系统,帮助识别和纠正网络上的错误信息,尤其是在低资源语言环境中。这有助于提高公众对信息的辨别能力,减少虚假信息传播带来的负面影响,并促进更健康的网络生态环境。未来,该方法可以扩展到更多语言和领域,例如医疗健康、金融等。

📄 摘要(原文)

Robust automatic fact-checking systems have the potential to combat online misinformation at scale. However, most existing research primarily focuses on English. In this paper, we introduce MultiSynFact, the first large-scale multilingual fact-checking dataset containing 2.2M claim-source pairs designed to support Spanish, German, English, and other low-resource languages. Our dataset generation pipeline leverages Large Language Models (LLMs), integrating external knowledge from Wikipedia and incorporating rigorous claim validation steps to ensure data quality. We evaluate the effectiveness of MultiSynFact across multiple models and experimental settings. Additionally, we open-source a user-friendly framework to facilitate further research in multilingual fact-checking and dataset generation.