Adversarial Attacks Against Automated Fact-Checking: A Survey

📄 arXiv: 2509.08463v1 📥 PDF

作者: Fanzhen Liu, Alsharif Abuadbba, Kristen Moore, Surya Nepal, Cecile Paris, Jia Wu, Jian Yang, Quan Z. Sheng

分类: cs.CL, cs.AI, cs.CR

发布日期: 2025-09-10

备注: Accepted to the Main Conference of EMNLP 2025. Resources are available at https://github.com/FanzhenLiu/Awesome-Automated-Fact-Checking-Attacks


💡 一句话要点

综述:针对自动化事实核查的对抗攻击研究

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 自动化事实核查 对抗攻击 信息安全 鲁棒性 深度学习 自然语言处理

📋 核心要点

  1. 自动化事实核查系统面临对抗攻击的威胁,现有系统容易被操纵声明、证据等手段攻击。
  2. 该综述旨在全面回顾针对事实核查的对抗攻击,并对攻击方法进行分类和评估。
  3. 研究还考察了对抗防御的最新进展,并指出了未来研究方向,以提升事实核查系统的鲁棒性。

📝 摘要(中文)

在错误信息自由传播的时代,事实核查(FC)在验证声明和推广可靠信息方面起着至关重要的作用。虽然自动化事实核查(AFC)已经取得了显著进展,但现有系统仍然容易受到对抗攻击的影响,这些攻击会操纵或生成声明、证据或声明-证据对。这些攻击会扭曲真相,误导决策者,并最终破坏FC模型的可靠性。尽管对抗AFC系统的研究兴趣日益浓厚,但仍然缺乏对关键挑战的全面、整体概述。这些挑战包括理解攻击策略,评估当前模型的弹性,以及确定提高鲁棒性的方法。本综述首次深入回顾了针对FC的对抗攻击,对现有的攻击方法进行了分类,并评估了它们对AFC系统的影响。此外,我们还研究了对抗感知防御的最新进展,并强调了需要进一步探索的开放性研究问题。我们的研究结果强调,迫切需要能够承受对抗性操纵的弹性FC框架,以保持高验证准确性。

🔬 方法详解

问题定义:论文旨在解决自动化事实核查(AFC)系统在面对对抗攻击时脆弱性的问题。现有的AFC系统容易受到恶意构造的声明、证据或声明-证据对的攻击,导致事实核查结果的偏差甚至错误。这些攻击手段会严重影响AFC系统的可靠性和公信力,阻碍其在信息验证和舆情引导等方面的应用。

核心思路:论文的核心思路是对现有针对AFC系统的对抗攻击方法进行系统性的梳理、分类和分析,从而揭示AFC系统面临的主要威胁和挑战。通过对不同攻击策略的深入理解,可以更好地评估现有AFC模型的鲁棒性,并为开发更有效的对抗防御机制提供理论基础。

技术框架:该综述论文没有提出新的技术框架,而是对现有研究进行了整理和归纳。其框架主要体现在对对抗攻击方法的分类上,例如按照攻击目标(声明、证据、声明-证据对)、攻击方式(操纵、生成)等维度进行划分。此外,论文还对现有的对抗防御方法进行了总结,并探讨了未来的研究方向。

关键创新:该论文的主要创新在于其全面性和系统性。它是首次针对AFC领域的对抗攻击进行深入的综述,填补了该领域的空白。通过对现有研究的整理和分析,论文为研究人员提供了一个清晰的全局视角,有助于他们更好地理解AFC系统面临的威胁,并开发更有效的防御机制。

关键设计:由于是综述论文,没有具体的技术设计。但论文对现有攻击方法的分类和对防御方法的总结,为未来的研究提供了重要的参考。例如,在攻击方面,可以根据论文的分类,针对特定类型的攻击设计更有效的防御策略;在防御方面,可以借鉴论文中总结的防御方法,并结合具体的应用场景进行改进和优化。

📊 实验亮点

该综述论文系统性地回顾了针对自动化事实核查系统的对抗攻击,并对现有攻击方法进行了分类和评估。论文还总结了对抗感知防御的最新进展,并指出了未来研究方向。这些研究结果为开发更鲁棒的自动化事实核查系统提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升自动化事实核查系统的安全性与可靠性,减少虚假信息传播,维护网络信息生态健康。在新闻媒体、社交平台、搜索引擎等领域具有广泛的应用前景,有助于提高公众对信息的辨别能力,减少因虚假信息造成的社会危害。

📄 摘要(原文)

In an era where misinformation spreads freely, fact-checking (FC) plays a crucial role in verifying claims and promoting reliable information. While automated fact-checking (AFC) has advanced significantly, existing systems remain vulnerable to adversarial attacks that manipulate or generate claims, evidence, or claim-evidence pairs. These attacks can distort the truth, mislead decision-makers, and ultimately undermine the reliability of FC models. Despite growing research interest in adversarial attacks against AFC systems, a comprehensive, holistic overview of key challenges remains lacking. These challenges include understanding attack strategies, assessing the resilience of current models, and identifying ways to enhance robustness. This survey provides the first in-depth review of adversarial attacks targeting FC, categorizing existing attack methodologies and evaluating their impact on AFC systems. Additionally, we examine recent advancements in adversary-aware defenses and highlight open research questions that require further exploration. Our findings underscore the urgent need for resilient FC frameworks capable of withstanding adversarial manipulations in pursuit of preserving high verification accuracy.