The CLEF-2025 CheckThat! Lab: Subjectivity, Fact-Checking, Claim Normalization, and Retrieval
作者: Firoj Alam, Julia Maria Struß, Tanmoy Chakraborty, Stefan Dietze, Salim Hafid, Katerina Korre, Arianna Muti, Preslav Nakov, Federico Ruggeri, Sebastian Schellhammer, Vinay Setty, Megha Sundriyal, Konstantin Todorov, Venktesh V
分类: cs.CL, cs.AI
发布日期: 2025-03-19
备注: misinformation, factuality, fact-checking, fact-checkers, check-worthiness, Social Media Platforms
💡 一句话要点
CLEF-2025 CheckThat! Lab:多语言平台在线信息操纵与虚假信息识别技术
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 信息验证 事实核查 自然语言处理 多语言处理 主观性识别
📋 核心要点
- 现有在线信息验证方法在处理多语言、主观性判断和数值声明核查方面存在不足。
- CheckThat! Lab通过设立多个任务,探索主观性识别、声明规范化、数值声明核查和科学网络话语处理等问题。
- CLEF-2025 CheckThat! Lab旨在为研究人员提供基准数据集和评估框架,促进相关技术发展。
📝 摘要(中文)
CheckThat! 实验室旨在推进创新技术的发展,以识别和应对各种语言和平台上的在线虚假信息和操纵行为。前五个版本侧重于信息验证流程中的关键任务,包括检查价值、证据检索和配对以及验证。自2023年版以来,该实验室扩大了范围,以解决支持验证研究和决策的辅助任务。在2025年版中,该实验室重新审视了核心验证任务,同时也考虑了辅助挑战。任务1侧重于主观性的识别(CheckThat! 2024的后续),任务2涉及声明规范化,任务3针对数值声明的事实核查,任务4探索科学网络话语处理。这些任务提出了具有挑战性的文档和跨度级别的分类和检索问题,包括多语言环境。
🔬 方法详解
问题定义:该论文描述了CLEF-2025 CheckThat! Lab的四个主要任务,旨在解决在线虚假信息和操纵行为。现有方法在处理主观性识别、声明规范化、数值声明的事实核查以及科学网络话语处理等方面存在挑战,尤其是在多语言环境下。这些任务需要更有效的分类和检索技术,以应对文档和跨度级别的复杂性。
核心思路:CheckThat! Lab的核心思路是通过组织一系列具有挑战性的任务,吸引研究人员参与,共同探索和开发创新的技术解决方案。每个任务都针对信息验证流程中的一个特定环节,旨在提高在线信息的可信度和可靠性。通过提供基准数据集和评估框架,促进相关领域的研究进展。
技术框架:CLEF-2025 CheckThat! Lab包含四个主要任务:任务1:主观性识别;任务2:声明规范化;任务3:数值声明的事实核查;任务4:科学网络话语处理。每个任务都涉及数据的收集、标注和预处理,以及评估指标的定义。参与者需要开发相应的算法和模型,并在统一的评估平台上进行测试和比较。
关键创新:该Lab的创新之处在于其综合性,涵盖了信息验证流程的多个关键环节,并关注了多语言环境下的挑战。通过引入主观性识别、声明规范化和科学网络话语处理等辅助任务,扩展了信息验证的研究范围。此外,该Lab还提供了一个开放的平台,促进研究人员之间的交流和合作。
关键设计:每个任务的具体设计取决于其目标和挑战。例如,主观性识别任务可能需要设计专门的分类器,以区分客观陈述和主观观点。声明规范化任务可能需要使用自然语言处理技术,将不同的表达方式转换为统一的标准形式。数值声明的事实核查任务可能需要从多个来源检索证据,并进行一致性评估。科学网络话语处理任务可能需要分析科学论文的结构和内容,以识别潜在的偏见或错误。
🖼️ 关键图片
📊 实验亮点
CheckThat! Lab通过组织多个任务,为研究人员提供了一个评估和比较不同信息验证技术的平台。该Lab吸引了来自世界各地的研究团队参与,促进了相关领域的技术创新。通过提供基准数据集和评估框架,该Lab为未来的研究奠定了基础,并推动了在线信息验证技术的发展。
🎯 应用场景
该研究成果可应用于社交媒体平台、新闻媒体、搜索引擎等领域,帮助用户识别和过滤虚假信息,提高信息的可信度。通过自动化事实核查和主观性识别,可以减少人工审核的工作量,提高信息验证的效率。此外,该研究还有助于提高公众对在线信息操纵的认知,增强其辨别能力。
📄 摘要(原文)
The CheckThat! lab aims to advance the development of innovative technologies designed to identify and counteract online disinformation and manipulation efforts across various languages and platforms. The first five editions focused on key tasks in the information verification pipeline, including check-worthiness, evidence retrieval and pairing, and verification. Since the 2023 edition, the lab has expanded its scope to address auxiliary tasks that support research and decision-making in verification. In the 2025 edition, the lab revisits core verification tasks while also considering auxiliary challenges. Task 1 focuses on the identification of subjectivity (a follow-up from CheckThat! 2024), Task 2 addresses claim normalization, Task 3 targets fact-checking numerical claims, and Task 4 explores scientific web discourse processing. These tasks present challenging classification and retrieval problems at both the document and span levels, including multilingual settings.