Effective faking of verbal deception detection with target-aligned adversarial attacks
作者: Bennett Kleinberg, Riccardo Loconte, Bruno Verschuere
分类: cs.CL, cs.AI
发布日期: 2025-01-10 (更新: 2025-06-01)
备注: Accepted to Legal and Criminological Psychology (author version)
💡 一句话要点
利用目标对齐对抗攻击有效伪造言语欺骗检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 欺骗检测 对抗攻击 自然语言处理 大型语言模型 目标对齐
📋 核心要点
- 现有欺骗检测方法易受对抗攻击影响,攻击者可修改欺骗性陈述以规避检测。
- 利用大型语言模型生成针对人类或机器模型的对抗样本,研究目标对齐对抗攻击的有效性。
- 实验表明,目标对齐的对抗攻击能有效降低人类和机器模型的欺骗检测准确率至随机水平。
📝 摘要(中文)
背景:通过分析语言进行欺骗检测,无论是通过人类判断还是自动机器学习模型判断,都是一个很有前景的途径。对于这两种可信度评估方式,通过重写欺骗性陈述使其看起来真实的反向对抗攻击构成严重威胁。方法:我们使用了一个包含243个真实自传故事和262个虚构自传故事的数据集,用于人类和机器学习模型的欺骗检测任务。我们使用大型语言模型来重写欺骗性陈述,使其看起来真实。在研究1中,做出欺骗判断或使用详细程度启发式的人类以及两个机器学习模型(一个微调的语言模型和一个简单的n-gram模型)判断了欺骗性陈述的原始版本或对抗性修改版本。在研究2中,我们操纵了修改的目标对齐方式,即根据陈述是由人类还是计算机模型评估来定制攻击。结果:当对抗性修改与其目标对齐时,人类(d=-0.07和d=-0.04)和机器判断(51%准确率)降至机会水平。当攻击未与目标对齐时,人类启发式判断(d=0.30和d=0.36)和机器学习预测(63-78%)明显优于机会水平。结论:易于访问的语言模型可以有效地帮助任何人伪造人类和机器学习模型的欺骗检测工作。人类和机器对对抗性修改的鲁棒性取决于目标对齐。最后,我们提出了关于利用对抗性攻击设计和技术来推进欺骗研究的建议。
🔬 方法详解
问题定义:论文旨在解决欺骗检测系统易受对抗攻击的问题。现有的欺骗检测方法,无论是基于人类判断还是机器学习模型,都容易被精心设计的对抗样本所欺骗。攻击者可以通过修改欺骗性陈述,使其看起来更真实,从而绕过检测系统。这种攻击对欺骗检测的可靠性构成了严重威胁。
核心思路:论文的核心思路是研究目标对齐的对抗攻击,即根据欺骗检测的目标(人类或机器模型)来定制对抗样本。通过分析人类和机器模型的判断差异,设计更具针对性的攻击,从而提高对抗攻击的有效性。这种方法旨在揭示现有欺骗检测系统的脆弱性,并为开发更鲁棒的检测方法提供指导。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:使用包含真实和虚构自传故事的数据集。2) 对抗样本生成:使用大型语言模型(LLM)生成对抗样本,通过修改欺骗性陈述使其看起来更真实。3) 目标对齐:根据欺骗检测的目标(人类或机器模型)调整LLM的生成策略,生成目标对齐的对抗样本。4) 评估:通过人类实验和机器学习模型评估对抗攻击的效果。
关键创新:论文的关键创新在于提出了目标对齐的对抗攻击。与传统的对抗攻击不同,该方法不是盲目地生成对抗样本,而是根据欺骗检测的目标(人类或机器模型)来定制攻击。这种方法能够更有效地欺骗检测系统,因为它利用了人类和机器模型判断欺骗的差异。
关键设计:在对抗样本生成阶段,论文使用了大型语言模型(LLM)来修改欺骗性陈述。关键的设计在于如何引导LLM生成目标对齐的对抗样本。对于人类目标,LLM被指示生成更详细、更具情感色彩的陈述,以利用人类的认知偏差。对于机器模型目标,LLM被指示生成更符合真实陈述统计特征的陈述,以绕过模型的检测规则。
📊 实验亮点
研究表明,当对抗性修改与目标对齐时,人类判断的准确率从显著高于随机水平降至接近随机水平(d从0.30/0.36降至-0.07/-0.04),机器学习模型的准确率也从63-78%降至51%。这表明目标对齐的对抗攻击能够有效欺骗人类和机器模型。
🎯 应用场景
该研究成果可应用于信息安全、舆情分析、金融风控等领域。通过模拟对抗攻击,可以评估和提升现有欺骗检测系统的鲁棒性。此外,该研究还可以帮助人们更好地理解人类和机器模型判断欺骗的差异,从而开发更有效的欺骗检测方法,防范虚假信息的传播。
📄 摘要(原文)
Background: Deception detection through analysing language is a promising avenue using both human judgments and automated machine learning judgments. For both forms of credibility assessment, automated adversarial attacks that rewrite deceptive statements to appear truthful pose a serious threat. Methods: We used a dataset of 243 truthful and 262 fabricated autobiographical stories in a deception detection task for humans and machine learning models. A large language model was tasked to rewrite deceptive statements so that they appear truthful. In Study 1, humans who made a deception judgment or used the detailedness heuristic and two machine learning models (a fine-tuned language model and a simple n-gram model) judged original or adversarial modifications of deceptive statements. In Study 2, we manipulated the target alignment of the modifications, i.e. tailoring the attack to whether the statements would be assessed by humans or computer models. Results: When adversarial modifications were aligned with their target, human (d=-0.07 and d=-0.04) and machine judgments (51% accuracy) dropped to the chance level. When the attack was not aligned with the target, both human heuristics judgments (d=0.30 and d=0.36) and machine learning predictions (63-78%) were significantly better than chance. Conclusions: Easily accessible language models can effectively help anyone fake deception detection efforts both by humans and machine learning models. Robustness against adversarial modifications for humans and machines depends on that target alignment. We close with suggestions on advancing deception research with adversarial attack designs and techniques.