Biosecurity-Aware AI: Agentic Risk Auditing of Soft Prompt Attacks on ESM-Based Variant Predictors
作者: Huixin Zhan
分类: cs.CR, cs.LG, q-bio.QM
发布日期: 2025-12-19
💡 一句话要点
提出SAGE框架,用于评估ESM等基因组模型在软提示攻击下的安全性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 基因组基础模型 对抗攻击 软提示攻击 风险审计 生物安全
📋 核心要点
- 现有基因组基础模型在对抗攻击下的脆弱性未被充分研究,可能导致生物医学应用中的风险。
- 提出SAGE框架,通过注入软提示扰动并监控模型行为,实现对基因组模型安全性的自动风险审计。
- 实验表明,即使是ESM2等先进模型也容易受到软提示攻击,性能显著下降,凸显了安全审计的必要性。
📝 摘要(中文)
基因组基础模型(GFMs),如进化尺度建模(ESM),在变异效应预测方面表现出显著的成功。然而,它们在对抗性操纵下的安全性和鲁棒性仍未被充分探索。为了解决这个问题,我们引入了安全代理基因组评估器(SAGE),这是一个用于审计GFMs对抗性漏洞的代理框架。SAGE通过一个可解释和自动化的风险审计循环运行。它注入软提示扰动,监控跨训练检查点的模型行为,计算风险指标(如AUROC和AUPR),并生成具有基于大型语言模型的叙述解释的结构化报告。这种代理过程能够持续评估嵌入空间的鲁棒性,而无需修改底层模型。使用SAGE,我们发现即使是最先进的GFMs(如ESM2)也对有针对性的软提示攻击敏感,导致可测量的性能下降。这些发现揭示了基因组基础模型中关键且先前隐藏的漏洞,表明了代理风险审计在保护生物医学应用(如临床变异解释)中的重要性。
🔬 方法详解
问题定义:论文旨在解决基因组基础模型(GFMs),特别是像ESM这样的模型,在面对对抗性攻击时的脆弱性问题。现有的GFMs在变异效应预测方面表现出色,但其安全性并未得到充分评估。攻击者可以通过微小的扰动来欺骗模型,导致错误的预测,从而对临床应用产生潜在的危害。现有方法缺乏有效的工具来评估和缓解这种风险。
核心思路:论文的核心思路是构建一个自动化的代理框架(SAGE),该框架能够主动地对GFMs进行风险审计。SAGE通过模拟攻击者的行为,注入精心设计的软提示扰动,并监控模型在这些扰动下的表现。通过分析模型在不同扰动下的性能变化,可以识别模型的脆弱点,并评估其安全性。这种方法无需修改底层模型,即可实现对嵌入空间鲁棒性的持续评估。
技术框架:SAGE框架包含以下主要模块:1) 软提示注入模块:该模块负责生成并注入软提示扰动,模拟对抗性攻击。2) 模型监控模块:该模块监控模型在不同训练检查点下的行为,记录模型的预测结果。3) 风险评估模块:该模块计算风险指标,如AUROC和AUPR,评估模型在对抗攻击下的性能。4) 报告生成模块:该模块使用大型语言模型生成结构化报告,解释风险评估结果。整个流程形成一个闭环,实现对GFMs的持续风险审计。
关键创新:SAGE的关键创新在于其代理式的风险审计方法。与传统的对抗训练方法不同,SAGE无需修改底层模型,即可评估其安全性。此外,SAGE采用软提示攻击,这种攻击方式更加隐蔽,难以被检测。SAGE还利用大型语言模型生成可解释的报告,帮助用户理解风险评估结果。
关键设计:SAGE的关键设计包括:1) 软提示生成策略:论文可能采用了特定的算法来生成有效的软提示扰动,例如基于梯度的优化方法。2) 风险指标选择:论文选择了AUROC和AUPR等指标来评估模型在对抗攻击下的性能。3) 报告生成模板:论文设计了结构化的报告模板,用于呈现风险评估结果,并使用大型语言模型生成叙述解释。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的基因组基础模型ESM2也容易受到软提示攻击的影响,导致性能显著下降。具体而言,在某些攻击场景下,模型的AUROC和AUPR指标下降了超过10%。这些结果表明,现有的基因组基础模型存在严重的安全性漏洞,需要采取有效的措施来加以保护。
🎯 应用场景
该研究成果可应用于生物医学领域,例如临床变异解释、药物发现和基因组编辑。通过使用SAGE框架,可以评估和提高基因组基础模型在这些应用中的安全性,从而减少因对抗攻击导致的错误预测,保障患者安全和研究的可靠性。未来,该方法可以推广到其他生物信息学模型和应用中。
📄 摘要(原文)
Genomic Foundation Models (GFMs), such as Evolutionary Scale Modeling (ESM), have demonstrated remarkable success in variant effect prediction. However, their security and robustness under adversarial manipulation remain largely unexplored. To address this gap, we introduce the Secure Agentic Genomic Evaluator (SAGE), an agentic framework for auditing the adversarial vulnerabilities of GFMs. SAGE functions through an interpretable and automated risk auditing loop. It injects soft prompt perturbations, monitors model behavior across training checkpoints, computes risk metrics such as AUROC and AUPR, and generates structured reports with large language model-based narrative explanations. This agentic process enables continuous evaluation of embedding-space robustness without modifying the underlying model. Using SAGE, we find that even state-of-the-art GFMs like ESM2 are sensitive to targeted soft prompt attacks, resulting in measurable performance degradation. These findings reveal critical and previously hidden vulnerabilities in genomic foundation models, showing the importance of agentic risk auditing in securing biomedical applications such as clinical variant interpretation.