Adversarial Attacks Against Automated Fact-Checking: A Survey
作者: Fanzhen Liu, Alsharif Abuadbba, Kristen Moore, Surya Nepal, Cecile Paris, Jia Wu, Jian Yang, Quan Z. Sheng
分类: cs.CL, cs.AI, cs.CR
发布日期: 2025-09-10
备注: Accepted to the Main Conference of EMNLP 2025. Resources are available at https://github.com/FanzhenLiu/Awesome-Automated-Fact-Checking-Attacks
💡 一句话要点
综述性研究:针对自动化事实核查系统的对抗攻击方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 自动化事实核查 对抗攻击 信息安全 自然语言处理 鲁棒性 深度学习 综述
📋 核心要点
- 现有自动化事实核查系统容易受到对抗攻击,攻击者可以操纵声明或证据,降低系统的准确性和可靠性。
- 该论文对针对自动化事实核查系统的对抗攻击进行了全面的综述,对现有攻击方法进行分类,并评估其影响。
- 论文还探讨了对抗感知防御的最新进展,并指出了未来研究方向,旨在构建更鲁棒的事实核查系统。
📝 摘要(中文)
在错误信息泛滥的时代,事实核查(FC)在验证声明和推广可靠信息方面起着至关重要的作用。虽然自动化事实核查(AFC)已经取得了显著进展,但现有系统仍然容易受到对抗攻击的影响,这些攻击会操纵或生成声明、证据或声明-证据对。这些攻击会扭曲真相,误导决策者,并最终破坏FC模型的可靠性。尽管对抗AFC系统的攻击研究兴趣日益浓厚,但仍然缺乏对关键挑战的全面、整体概述。这些挑战包括理解攻击策略、评估当前模型的弹性以及确定增强鲁棒性的方法。本综述提供了对针对FC的对抗攻击的首次深入回顾,对现有攻击方法进行分类,并评估其对AFC系统的影响。此外,我们还研究了对抗感知防御的最新进展,并强调了需要进一步探索的开放性研究问题。我们的研究结果强调,迫切需要能够承受对抗性操纵的弹性FC框架,以保持高验证准确性。
🔬 方法详解
问题定义:自动化事实核查(AFC)旨在验证信息的真实性,但现有AFC系统容易受到对抗攻击。攻击者可以通过操纵输入数据(例如,声明、证据)来欺骗AFC系统,使其产生错误的判断。现有方法缺乏对这些攻击的全面理解和有效的防御机制,导致AFC系统的可靠性受到威胁。
核心思路:该综述的核心思路是对现有的对抗攻击方法进行系统性的分类和分析,从而揭示AFC系统面临的主要威胁。通过理解不同攻击策略的原理和影响,可以更好地评估AFC系统的脆弱性,并为开发更有效的防御机制提供指导。
技术框架:该综述的技术框架主要包括以下几个方面:1) 对抗攻击的分类:根据攻击目标(例如,声明、证据、声明-证据对)和攻击方法(例如,文本对抗生成、证据操纵)对现有攻击进行分类。2) 攻击效果评估:评估不同攻击方法对AFC系统性能的影响,例如,准确率下降、误判率上升。3) 对抗防御方法:总结现有的对抗防御方法,例如,对抗训练、输入验证。4) 未来研究方向:指出未来研究的重点,例如,开发更鲁棒的AFC模型、设计更有效的对抗防御机制。
关键创新:该综述的关键创新在于首次对针对AFC系统的对抗攻击进行了全面的、深入的回顾。它不仅对现有攻击方法进行了系统性的分类和分析,还评估了这些攻击对AFC系统的影响,并总结了现有的对抗防御方法。此外,该综述还指出了未来研究的重点,为开发更鲁棒的AFC系统提供了指导。
关键设计:该综述的关键设计在于其系统性的分类框架,该框架能够清晰地组织和呈现现有的对抗攻击方法。此外,该综述还关注了攻击效果的评估,通过量化攻击对AFC系统性能的影响,可以更好地理解AFC系统的脆弱性。最后,该综述还总结了现有的对抗防御方法,并指出了未来研究的重点,为开发更鲁棒的AFC系统提供了指导。
🖼️ 关键图片
📊 实验亮点
该综述全面回顾了针对自动化事实核查系统的对抗攻击,并对现有攻击方法进行了分类和评估。研究结果表明,现有AFC系统容易受到对抗攻击的影响,攻击会导致验证准确率显著下降。该综述还总结了现有的对抗防御方法,并指出了未来研究的重点,为开发更鲁棒的AFC系统提供了指导。
🎯 应用场景
该研究成果可应用于提升新闻媒体、社交平台等信息传播渠道的可靠性。通过增强自动化事实核查系统的鲁棒性,可以有效识别和抵御虚假信息的传播,维护社会公共利益,并为决策者提供更可靠的信息支持。未来,该研究可进一步推动开发更智能、更安全的自动化事实核查系统。
📄 摘要(原文)
In an era where misinformation spreads freely, fact-checking (FC) plays a crucial role in verifying claims and promoting reliable information. While automated fact-checking (AFC) has advanced significantly, existing systems remain vulnerable to adversarial attacks that manipulate or generate claims, evidence, or claim-evidence pairs. These attacks can distort the truth, mislead decision-makers, and ultimately undermine the reliability of FC models. Despite growing research interest in adversarial attacks against AFC systems, a comprehensive, holistic overview of key challenges remains lacking. These challenges include understanding attack strategies, assessing the resilience of current models, and identifying ways to enhance robustness. This survey provides the first in-depth review of adversarial attacks targeting FC, categorizing existing attack methodologies and evaluating their impact on AFC systems. Additionally, we examine recent advancements in adversary-aware defenses and highlight open research questions that require further exploration. Our findings underscore the urgent need for resilient FC frameworks capable of withstanding adversarial manipulations in pursuit of preserving high verification accuracy.