AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications

📄 arXiv: 2512.20164v1 📥 PDF

作者: Honglin Mu, Jinghao Liu, Kaiyang Wan, Rui Xing, Xiuying Chen, Timothy Baldwin, Wanxiang Che

分类: cs.CL, cs.AI

发布日期: 2025-12-23


💡 一句话要点

揭示LLM在简历筛选中对抗性漏洞,提出FIDS防御机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对抗性攻击 简历筛选 安全漏洞 防御机制 LoRA 外部指令检测

📋 核心要点

  1. 现有LLM在简历筛选等专业应用中缺乏针对对抗性攻击的有效防御,容易被恶意指令操纵。
  2. 提出FIDS防御机制,通过LoRA适配分离外部指令,降低攻击成功率并保持任务效用。
  3. 实验表明,FIDS及与prompt防御结合的方法,能有效降低攻击成功率,且训练时防御优于推理时缓解。

📝 摘要(中文)

大型语言模型(LLM)在文本理解和生成方面表现出色,使其成为代码审查和内容审核等自动化任务的理想选择。然而,我们的研究发现了一个漏洞:LLM可能受到隐藏在输入数据(如简历或代码)中的“对抗性指令”的操纵,导致它们偏离其预期任务。值得注意的是,虽然成熟领域(如代码审查)可能存在防御机制,但在简历筛选和同行评审等其他常见应用中,这些防御机制往往缺失。本文引入了一个基准来评估简历筛选中的这种漏洞,揭示了某些攻击类型的成功率超过80%。我们评估了两种防御机制:基于提示的防御实现了10.1%的攻击减少,但误拒率增加了12.5%,而我们提出的使用LoRA适配的FIDS(通过分离进行外部指令检测)实现了15.4%的攻击减少,误拒率增加了10.4%。结合使用的方法提供了26.3%的攻击减少,表明训练时防御在安全性和效用保持方面均优于推理时缓解。

🔬 方法详解

问题定义:论文旨在解决LLM在简历筛选等专业领域应用中,容易受到对抗性攻击的问题。现有方法,特别是针对代码审查等成熟领域的防御手段,在这些新兴应用中效果不佳或缺失,导致LLM容易被简历中隐藏的恶意指令操纵,偏离正常的筛选任务。

核心思路:论文的核心思路是通过检测并分离简历中的外部指令来防御对抗性攻击。具体而言,通过训练一个专门用于识别和分离外部指令的模型,使得LLM在执行简历筛选任务时,能够忽略或弱化这些恶意指令的影响,从而提高筛选的准确性和安全性。

技术框架:整体框架包含三个主要阶段:1) 对抗性攻击生成阶段,用于构建包含恶意指令的简历样本;2) 防御模型训练阶段,使用LoRA对LLM进行微调,训练FIDS模型以检测和分离外部指令;3) 评估阶段,测试FIDS模型在防御对抗性攻击方面的效果,并与基线方法进行比较。

关键创新:最重要的技术创新点在于FIDS(Foreign Instruction Detection through Separation)模型,它利用LoRA(Low-Rank Adaptation)技术对LLM进行微调,使其能够有效地识别和分离简历中的外部指令。与传统的prompt-based防御相比,FIDS通过训练专门的模型来处理对抗性攻击,具有更强的鲁棒性和泛化能力。

关键设计:FIDS的关键设计包括:1) 使用LoRA进行参数高效的微调,降低训练成本;2) 设计特定的损失函数,鼓励模型区分和分离外部指令;3) 采用分离机制,在LLM执行筛选任务之前,将检测到的外部指令从输入中移除或弱化。此外,论文还探索了prompt-based防御与FIDS的结合使用,以进一步提高防御效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FIDS防御机制在简历筛选任务中能够有效降低对抗性攻击的成功率。具体而言,FIDS能够将攻击成功率降低15.4%,而prompt-based防御只能降低10.1%。将FIDS与prompt-based防御结合使用,可以将攻击成功率降低26.3%。此外,FIDS在降低攻击成功率的同时,对正常简历的误拒率影响较小,表明其在安全性和效用之间取得了较好的平衡。

🎯 应用场景

该研究成果可应用于各种基于LLM的自动化任务,如招聘筛选、内容审核、论文评审等。通过提高LLM在这些应用中的安全性,可以减少恶意攻击造成的损失,提高工作效率,并促进LLM在更多领域的应用。未来,该研究可以扩展到其他类型的对抗性攻击和防御机制,进一步提升LLM的鲁棒性和可靠性。

📄 摘要(原文)

Large Language Models (LLMs) excel at text comprehension and generation, making them ideal for automated tasks like code review and content moderation. However, our research identifies a vulnerability: LLMs can be manipulated by "adversarial instructions" hidden in input data, such as resumes or code, causing them to deviate from their intended task. Notably, while defenses may exist for mature domains such as code review, they are often absent in other common applications such as resume screening and peer review. This paper introduces a benchmark to assess this vulnerability in resume screening, revealing attack success rates exceeding 80% for certain attack types. We evaluate two defense mechanisms: prompt-based defenses achieve 10.1% attack reduction with 12.5% false rejection increase, while our proposed FIDS (Foreign Instruction Detection through Separation) using LoRA adaptation achieves 15.4% attack reduction with 10.4% false rejection increase. The combined approach provides 26.3% attack reduction, demonstrating that training-time defenses outperform inference-time mitigations in both security and utility preservation.