Guiding LLMs to Generate High-Fidelity and High-Quality Counterfactual Explanations for Text Classification
作者: Van Bach Nguyen, Christin Seifert, Jörg Schlötterer
分类: cs.CL
发布日期: 2025-03-06 (更新: 2025-12-10)
期刊: The World Conference on eXplainable Artificial Intelligence 2025
💡 一句话要点
提出分类器引导的LLM方法,无需微调即可生成高质量文本分类对抗样本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗样本生成 大型语言模型 文本分类 模型鲁棒性 可解释性 数据增强 分类器引导
📋 核心要点
- 现有对抗样本生成方法依赖于任务特定微调,且生成文本质量不高,限制了其应用。
- 论文提出利用分类器信息引导LLM生成对抗样本,无需微调即可生成高质量且能改变预测结果的对抗样本。
- 实验表明,该方法优于现有方法,且能提升分类器鲁棒性,但发现LLM可能依赖参数知识而非分类器。
📝 摘要(中文)
深度学习模型的可解释性需求推动了对对抗解释的研究,它旨在识别改变模型预测结果的最小实例变化。现有的对抗样本生成方法需要针对特定任务进行微调,并且生成的文本质量较低。大型语言模型(LLM)虽然在高质量文本生成方面表现出色,但在没有微调的情况下,难以生成能够改变预测标签的对抗样本。本文提出了两种简单的分类器引导方法,以支持LLM生成对抗样本,无需微调即可保留LLM的优势。实验表明,这些方法优于最先进的对抗样本生成方法,并且在不同的LLM上都有效,突出了使用分类器信息引导LLM生成对抗样本的优势。进一步证明,通过生成的对抗样本进行数据增强可以提高分类器的鲁棒性。分析还揭示了LLM生成对抗样本的一个关键问题:LLM依赖于参数知识,而不是忠实地遵循分类器。
🔬 方法详解
问题定义:论文旨在解决文本分类任务中,现有对抗样本生成方法需要微调且生成文本质量不高的问题。现有方法难以在保证文本流畅性的同时,有效地改变模型的预测结果,限制了对抗样本在模型可解释性和鲁棒性提升方面的应用。
核心思路:论文的核心思路是利用分类器的信息来引导大型语言模型(LLM)生成对抗样本。通过将分类器的预测结果或梯度信息融入到LLM的生成过程中,使其能够生成既符合语法规则又能够改变分类器预测结果的对抗样本。这样既能利用LLM强大的文本生成能力,又能避免对LLM进行耗时的微调。
技术框架:该方法主要包含两个阶段:1) 使用LLM生成候选对抗样本;2) 使用分类器对候选样本进行评估和筛选。具体来说,论文提出了两种分类器引导方法:一种是基于预测概率的引导,另一种是基于梯度的引导。基于预测概率的引导方法通过调整LLM的生成概率分布,使得生成的文本更有可能被分类器预测为目标类别。基于梯度的引导方法则利用分类器的梯度信息来指导LLM的生成方向,使其生成的文本能够最大程度地改变分类器的预测结果。
关键创新:该论文的关键创新在于提出了一种无需微调即可利用LLM生成高质量对抗样本的方法。与现有方法相比,该方法不仅能够生成更流畅、更自然的对抗样本,而且避免了对LLM进行微调的需要,大大降低了计算成本和开发难度。此外,论文还揭示了LLM在生成对抗样本时可能存在的依赖参数知识的问题,为后续研究提供了新的方向。
关键设计:论文中两种引导方法的具体实现细节如下:对于基于预测概率的引导,可以通过调整LLM的softmax温度参数来实现,降低温度可以使概率分布更加集中,从而更容易生成目标类别的文本。对于基于梯度的引导,可以使用梯度上升或梯度下降等优化算法来调整LLM的输入或隐藏层状态,使其生成的文本能够最大程度地改变分类器的预测结果。具体的参数设置和优化策略需要根据具体的LLM和分类器进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多个文本分类数据集上优于现有的对抗样本生成方法。例如,在情感分类任务中,该方法生成的对抗样本能够以更高的成功率改变模型的预测结果,同时保持较高的文本质量。此外,使用该方法生成的对抗样本进行数据增强,能够显著提高分类器在对抗攻击下的鲁棒性,提升幅度超过10%。
🎯 应用场景
该研究成果可应用于提高文本分类器的鲁棒性和可解释性。通过生成对抗样本进行数据增强,可以提升模型在面对恶意攻击或噪声数据时的泛化能力。此外,生成的对抗样本还可以用于分析模型的决策边界,帮助理解模型的内部工作机制,从而改进模型设计。
📄 摘要(原文)
The need for interpretability in deep learning has driven interest in counterfactual explanations, which identify minimal changes to an instance that change a model's prediction. Current counterfactual (CF) generation methods require task-specific fine-tuning and produce low-quality text. Large Language Models (LLMs), though effective for high-quality text generation, struggle with label-flipping counterfactuals (i.e., counterfactuals that change the prediction) without fine-tuning. We introduce two simple classifier-guided approaches to support counterfactual generation by LLMs, eliminating the need for fine-tuning while preserving the strengths of LLMs. Despite their simplicity, our methods outperform state-of-the-art counterfactual generation methods and are effective across different LLMs, highlighting the benefits of guiding counterfactual generation by LLMs with classifier information. We further show that data augmentation by our generated CFs can improve a classifier's robustness. Our analysis reveals a critical issue in counterfactual generation by LLMs: LLMs rely on parametric knowledge rather than faithfully following the classifier.