MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

作者: Martin Hyben, Sebastian Kula, Jan Cegin, Jakub Simko, Ivan Srba, Robert Moro

分类: cs.CL

发布日期: 2026-02-18

备注: 18 pages, 8 figures, 19 tables, EACL-2026

💡 一句话要点

提出MultiCW大规模多语言平衡基准数据集，用于训练鲁棒的Check-Worthiness检测模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Check-Worthiness检测 事实核查 多语言数据集 大型语言模型 Transformer模型

📋 核心要点

现有自动事实核查中，check-worthy声明检测的自动化支持仍然不足，限制了效率。
构建大规模、多语言、平衡的数据集，以促进check-worthy声明检测模型的训练和评估。
实验表明，微调的多语言Transformer模型优于零样本LLM，并具有良好的跨语言泛化能力。

📝 摘要（中文）

大型语言模型（LLMs）正在重塑媒体专业人士验证信息的方式，但自动支持检测check-worthy声明（事实核查过程中的关键步骤）仍然有限。我们推出了Multi-Check-Worthy（MultiCW）数据集，这是一个平衡的多语言基准，用于check-worthy声明检测，涵盖16种语言、7个主题领域和2种写作风格。它包含123,722个样本，在嘈杂（非正式）和结构化（正式）文本之间均匀分布，并在所有语言中平衡了check-worthy和非check-worthy类的表示。为了探测鲁棒性，我们还引入了一个同样平衡的、包含4种额外语言的、由27,761个样本组成的分布外评估集。为了提供基线，我们针对15个商业和开源LLM在零样本设置下，对3个常见的微调多语言transformer进行了基准测试。我们的研究结果表明，微调模型在声明分类方面始终优于零样本LLM，并在语言、领域和风格上表现出强大的分布外泛化能力。MultiCW为推进自动事实核查提供了一个严谨的多语言资源，并能够对微调模型和最先进的LLM在check-worthy声明检测任务上进行系统比较。

🔬 方法详解

问题定义：论文旨在解决check-worthy声明检测问题，即判断一个声明是否值得进行事实核查。现有方法缺乏大规模、多语言、平衡的数据集，导致模型在不同语言、领域和写作风格上的泛化能力不足。

核心思路：论文的核心思路是构建一个大规模、多语言、平衡的基准数据集MultiCW，该数据集涵盖多种语言、主题领域和写作风格，并平衡了check-worthy和非check-worthy声明的比例。通过在该数据集上训练和评估模型，可以提高模型在实际应用中的鲁棒性和泛化能力。

技术框架：MultiCW数据集的构建流程包括数据收集、标注和平衡。数据来源于多种渠道，包括新闻文章、社交媒体帖子等。标注由人工完成，标注人员根据预定义的标准判断声明是否check-worthy。为了保证数据集的平衡性，论文采用了过采样和欠采样等技术。此外，论文还提供了一个分布外评估集，用于评估模型在未见过的语言上的泛化能力。

关键创新：MultiCW数据集的关键创新在于其大规模、多语言和平衡性。与现有数据集相比，MultiCW数据集涵盖了更多的语言和主题领域，并且平衡了check-worthy和非check-worthy声明的比例。这使得MultiCW数据集能够更好地反映实际应用中的情况，并促进check-worthy声明检测模型的发展。

关键设计：MultiCW数据集包含16种语言，7个主题领域和2种写作风格。数据集分为训练集、验证集和测试集，其中训练集包含123,722个样本，测试集包含27,761个样本。论文还提供了3个微调的多语言Transformer模型作为基线，并与15个商业和开源LLM在零样本设置下进行了比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在MultiCW数据集上微调的多语言Transformer模型在check-worthy声明检测任务上优于零样本LLM。微调模型在跨语言、跨领域和跨风格的泛化能力方面表现出色，证明了MultiCW数据集的有效性和价值。具体而言，微调模型在分布外评估集上仍然保持了较高的性能。

🎯 应用场景

该研究成果可应用于自动事实核查系统，帮助媒体专业人士快速识别需要核实的声明，提高事实核查的效率和准确性。此外，该数据集也可用于训练和评估其他自然语言处理模型，例如文本分类、信息检索等，具有广泛的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) are beginning to reshape how media professionals verify information, yet automated support for detecting check-worthy claims a key step in the fact-checking process remains limited. We introduce the Multi-Check-Worthy (MultiCW) dataset, a balanced multilingual benchmark for check-worthy claim detection spanning 16 languages, 7 topical domains, and 2 writing styles. It consists of 123,722 samples, evenly distributed between noisy (informal) and structured (formal) texts, with balanced representation of check-worthy and non-check-worthy classes across all languages. To probe robustness, we also introduce an equally balanced out-of-distribution evaluation set of 27,761 samples in 4 additional languages. To provide baselines, we benchmark 3 common fine-tuned multilingual transformers against a diverse set of 15 commercial and open LLMs under zero-shot settings. Our findings show that fine-tuned models consistently outperform zero-shot LLMs on claim classification and show strong out-of-distribution generalization across languages, domains, and styles. MultiCW provides a rigorous multilingual resource for advancing automated fact-checking and enables systematic comparisons between fine-tuned models and cutting-edge LLMs on the check-worthy claim detection task.

MultiCW: A Large-Scale Balanced Benchmark Dataset for Training Robust Check-Worthiness Detection Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理