TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation

📄 arXiv: 2410.15135v4 📥 PDF

作者: Xiaocheng Zhang, Xi Wang, Yifei Lu, Jianing Wang, Zhuangzhuang Ye, Mengjiao Bao, Peng Yan, Xiaohong Su

分类: cs.CL

发布日期: 2024-10-19 (更新: 2025-10-25)


💡 一句话要点

提出TrendFact基准,用于评估可解释的热点感知事实核查能力,并提出FactISR框架提升大语言模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事实核查 热点感知 可解释性 基准测试 大语言模型

📋 核心要点

  1. 现有事实核查基准缺乏对热点事件的感知能力评估,且主要集中于英语,限制了全面事实核查的发展。
  2. TrendFact基准通过收集热门平台数据和构建证据库,评估系统热点感知能力和解释一致性,并提出ECS和HCPI指标。
  3. FactISR框架结合动态证据增强和影响分数自反思,显著提升了推理大语言模型在事实核查任务上的性能。

📝 摘要(中文)

本文提出了TrendFact,这是一个用于评估热点感知能力(HPA)和所有事实核查任务的基准。TrendFact包含7,643个样本,来源于热门平台和专业事实核查数据集,以及一个包含366,634条带有发布日期证据的证据库。此外,为了补充现有基准在评估系统解释一致性和HPA方面的不足,提出了两个新指标:ECS和HCPI。实验结果表明,当前的事实核查系统在TrendFact上表现出显著的局限性,这促进了更鲁棒的事实核查方法的发展。为了增强现有先进事实核查系统(即推理大语言模型,RLM)的能力,提出了FactISR,一个集成了动态证据增强和基于影响分数的迭代自反思的推理框架。FactISR有效地提高了RLM的性能,为可解释和复杂的事实核查提供了新的见解。

🔬 方法详解

问题定义:现有事实核查基准主要存在两个痛点:一是缺乏对热点事件的感知能力(HPA)的评估,导致系统难以应对新兴的虚假信息;二是主要集中于英语,忽略了多语言环境下的事实核查需求。此外,现有基准在评估系统解释一致性方面也存在不足。

核心思路:本文的核心思路是构建一个更全面、更贴近实际应用场景的事实核查基准TrendFact,并设计相应的评估指标,以推动更鲁棒、可解释的事实核查方法的发展。同时,通过FactISR框架,利用动态证据增强和自反思机制,提升大语言模型在复杂事实核查任务中的性能。

技术框架:TrendFact基准包含以下几个关键组成部分:1) 数据集:包含从热门平台和专业事实核查数据集收集的7,643个样本;2) 证据库:包含366,634条带有发布日期的证据条目;3) 评估指标:包括ECS(Explanation Consistency Score)和HCPI(Hotspot Claim Perception Index),用于评估系统解释一致性和热点感知能力。FactISR框架则包含动态证据增强模块和基于影响分数的迭代自反思模块。

关键创新:TrendFact是首个能够评估热点感知能力(HPA)的事实核查基准。FactISR框架的关键创新在于其动态证据增强机制,能够根据当前推理状态动态地检索和整合相关证据,以及基于影响分数的迭代自反思机制,能够让模型不断修正自身的推理过程,从而提高准确性和可解释性。

关键设计:FactISR框架中,动态证据增强模块使用检索模型(例如,基于Transformer的模型)从证据库中检索相关证据。影响分数用于衡量每个证据对最终判断的影响程度,并用于指导迭代自反思过程。迭代自反思过程通过提示工程(Prompt Engineering)实现,让模型反思自身的推理过程并进行修正。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前的事实核查系统在TrendFact基准上表现出显著的局限性,这突显了该基准的挑战性。FactISR框架能够有效提升推理大语言模型在事实核查任务上的性能,相较于基线模型取得了显著的提升,证明了动态证据增强和自反思机制的有效性。具体性能数据未知。

🎯 应用场景

该研究成果可应用于自动化事实核查系统、社交媒体平台内容审核、舆情监控等领域。通过提高事实核查系统的准确性和可解释性,有助于减少虚假信息的传播,维护网络空间的健康和安全,并为公众提供更可靠的信息来源。

📄 摘要(原文)

Fact-checking benchmarks provide standardized testing criteria for automated fact-checking systems, driving technological advancement. With the surge of misinformation on social media and the emergence of various fact-checking methods, public concern about the transparency of automated systems and the accuracy of fact-checking for high infulence events has grown. However, existing benchmarks fail to meet these urgent needs and are predominantly English-centric, hindering the progress of comprehensive fact-checking. To address these issues, we introduce TrendFact, the first benchmark capable of evaluating hotspot perception ability (HPA) and all fact-checking tasks. TrendFact consists of 7,643 curated samples sourced from trending platforms and professional fact-checking datasets, as well as an evidence library containing 366,634 entries with publication dates. Additionally, to complement existing benchmarks in evaluating system explanation consistency and HPA, we propose two new metrics: ECS and HCPI. Experimental results show that current fact-checking systems face significant limitations when evaluated on TrendFact, which facilitates the development of more robust fact-checking methods. Furthermore, to enhance the capabilities of existing advanced fact-checking systems, the reasoning large language models (RLMs), we propose FactISR, a reasoning framework that integrates dynamic evidence augmentation with influence score-based iterative self-reflection. FactISR effectively improves RLM's performance, offering new insights into explainable and complex fact-checking.