Hybrid Adversarial Defence for Natural Language Understanding Tasks
作者: Manar Abouzaid, Yang Wang, Chenghua Lin, Stuart E. Middleton
分类: cs.CL
发布日期: 2026-06-03
💡 一句话要点
提出混合对抗防御框架以提升自然语言理解任务的鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗防御 自然语言理解 混合模型 鲁棒性提升 大型语言模型
📋 核心要点
- 现有防御方法通常分别处理幻觉和对抗性操控,未能有效结合两者。
- 提出了一种混合防御框架,结合熵、不确定性和几何特征模型以增强鲁棒性。
- 在多个自然语言理解数据集上,混合模型在准确率和对抗鲁棒性上均显著提升。
📝 摘要(中文)
大型语言模型(LLMs)在面对幻觉和对抗性操控时表现出脆弱性。现有的防御方法通常分别针对这两个问题进行处理。本文提出了一种混合防御框架,结合了基于熵的模型(旨在减少幻觉)与基于不确定性和几何特征的模型(旨在降低脆弱性)。在自然语言理解数据集(FEVER、HotpotQA、CSQA、SIQA)上的域内测试中,混合模型在清洁任务性能上提高了最多43.34%的准确率,并在对抗鲁棒性上提高了最多64.92%的准确率和62.27%的攻击成功率。在分布外数据集(AeroEngQA、CPIQA)上,混合模型也表现出类似的对抗鲁棒性(最多提高57.14%的准确率)。整体结果表明,结合熵、不确定性和几何特征提供了一种比单一特征更有效的防御策略。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在自然语言理解任务中面临的幻觉和对抗性操控问题。现有方法往往孤立处理这两个问题,导致防御效果不佳。
核心思路:提出的混合防御框架通过结合基于熵、基于不确定性和几何特征的模型,旨在同时减少幻觉和提高对抗鲁棒性。这种设计思路源于对这两种问题的内在关联性的理解。
技术框架:整体架构包括三个主要模块:熵模型用于减少幻觉,不确定性模型用于评估输入的可信度,几何模型用于增强对抗样本的识别能力。通过这三个模块的协同作用,提升模型的整体性能。
关键创新:最重要的创新在于将三种不同特征的模型进行有效结合,形成一种综合防御策略。这与现有方法的单一特征使用形成鲜明对比,显著提升了防御效果。
关键设计:在模型设计中,采用了特定的损失函数以平衡不同模块的贡献,并通过调节关键参数来优化模型性能。网络结构方面,结合了多层感知机和卷积神经网络,以增强特征提取能力。
🖼️ 关键图片
📊 实验亮点
实验结果显示,混合模型在清洁任务上准确率提高了最多43.34%,在对抗鲁棒性上准确率提高了最多64.92%,攻击成功率降低了62.27%。在分布外数据集上,准确率也提高了最多57.14%。与现有基线模型相比,混合模型在多个数据集上表现出显著的优势。
🎯 应用场景
该研究的潜在应用领域包括智能客服、自动问答系统和信息检索等自然语言处理任务。通过提升模型的鲁棒性,可以有效减少对抗攻击带来的风险,提高系统的安全性和可靠性。未来,该框架有望推广到更多的语言理解和生成任务中,推动相关技术的发展。
📄 摘要(原文)
Large Language Models (LLMs) are vulnerable both to hallucination and adversarial manipulation. Although these problems are closely related, existing defences typically address them separately. We investigate a hybrid defence framework that combines entropy-based models, designed to reduce hallucinations, with uncertainty-based models and geometric-based models, designed to reduce vulnerability. Under in-domain tests on Natural Language Understanding datasets (FEVER, HotpotQA, CSQA, SIQA) we find our hybrid model improves both clean-task performance (up to 43.34\% increase in accuracy) and adversarial robustness (up to 64.92\% improvement in accuracy and 62.27\% reduction in attack success rate). For out-of-distribution datasets (AeroEngQA, CPIQA) we see similar adversarial robustness from our hybrid model (up to 57.14\% improvement in accuracy). For prompt injection (SafeGuard) and jailbreak detection (AdvBench, DAN) datasets our hybrid model is also very strong (up to 51\% reduction in attack success rate compared to state of the art baseline models). Overall, our results show that combining entropy, uncertainty and geometric features provides a more effective defence strategy than using any single feature alone for both in-domain and out-of-distribution tasks.