How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models
作者: Simone Corbo, Luca Bancale, Valeria De Gennaro, Livia Lestingi, Vincenzo Scotti, Matteo Camilli
分类: cs.SE, cs.AI, cs.CL
发布日期: 2025-01-03 (更新: 2025-10-24)
💡 一句话要点
EvoTox:一种基于搜索的大语言模型毒性测试框架,有效评估对齐后模型的潜在毒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 毒性测试 进化算法 提示工程 安全性评估
📋 核心要点
- 大型语言模型(LLMs)即使经过对齐,仍可能存在潜在的毒性风险,需要有效的测试方法来发现这些隐藏的偏差。
- EvoTox采用进化策略,通过提示生成器引导受测系统(SUT)产生更具毒性的响应,从而定量评估LLM的毒性倾向。
- 实验结果表明,EvoTox在检测毒性方面显著优于现有基线方法,且成本开销可控,为LLM的安全性评估提供了一种有效途径。
📝 摘要(中文)
语言是刻板印象和歧视的深层根源。大型语言模型(LLMs)已成为我们日常生活中普遍存在的技术,但当它们容易产生有害回应时,可能会造成广泛的危害。解决此问题的标准方法是对齐LLM,但这只是缓解问题,并非根本解决方案。因此,即使在对齐工作之后,测试LLM对于检测任何违反道德标准的残留偏差仍然至关重要。我们提出了EvoTox,这是一个用于LLM毒性倾向的自动化测试框架,提供了一种定量评估LLM在对齐后被推向毒性反应的程度的方法。该框架采用迭代进化策略,利用两个LLM之间的相互作用,即受测系统(SUT)和提示生成器,引导SUT响应朝着更高的毒性发展。毒性水平由基于现有毒性分类器的自动预言机评估。我们使用五个具有递增复杂性(7-671B参数)的先进LLM作为评估对象,进行了定量和定性的实证评估。我们的定量评估评估了EvoTox的四个替代版本相对于基于随机搜索、毒性提示的精选数据集和对抗性攻击的现有基线方法的成本效益。我们的定性评估邀请人类评估员对生成的提示的流畅性和测试会话期间收集的响应的感知毒性进行评分。结果表明,在检测到的毒性水平方面,其有效性明显高于所选的基线方法(相对于随机搜索,效应量高达1.0,相对于对抗性攻击,效应量高达0.99)。此外,EvoTox产生的成本开销有限(平均从22%到35%)。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在对齐后仍然存在的潜在毒性问题。现有方法,如人工审核或基于固定数据集的测试,难以充分挖掘LLM的毒性边界,且成本较高。对抗性攻击虽然可以发现一些漏洞,但通常需要大量计算资源,且生成的对抗样本可能不够自然流畅。
核心思路:论文的核心思路是利用进化算法自动生成能够诱导LLM产生毒性响应的提示。通过迭代优化提示,逐步逼近LLM的毒性边界,从而更全面地评估其潜在风险。这种方法模拟了真实世界中用户可能进行的恶意输入,更贴近实际应用场景。
技术框架:EvoTox框架包含两个主要模块:提示生成器和受测系统(SUT)。提示生成器是一个LLM,负责生成提示,目标是使SUT产生毒性响应。SUT是待评估的LLM。框架采用迭代进化策略,每一轮迭代中,提示生成器根据SUT的响应和毒性评估结果,对提示进行变异和选择,生成新的提示。毒性评估由一个自动预言机完成,该预言机基于现有的毒性分类器。整个过程循环进行,直到达到预定的迭代次数或毒性阈值。
关键创新:EvoTox的关键创新在于其基于搜索的毒性测试方法。与传统的基于固定数据集或人工设计的测试方法不同,EvoTox能够自动探索LLM的毒性边界,发现潜在的漏洞。此外,EvoTox采用进化算法,能够有效地优化提示,使其更具诱导性。
关键设计:EvoTox的关键设计包括:1) 提示生成器的选择:论文尝试了不同的LLM作为提示生成器,并评估了它们对测试效果的影响。2) 毒性评估指标:论文使用了现有的毒性分类器作为自动预言机,并对其进行了微调,以提高评估的准确性。3) 进化算法的参数设置:论文对进化算法的参数进行了优化,如变异率、选择策略等,以提高搜索效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EvoTox在检测LLM毒性方面显著优于现有基线方法。与随机搜索相比,EvoTox的效应量高达1.0,与对抗性攻击相比,效应量高达0.99。此外,EvoTox的成本开销相对较低,平均在22%到35%之间。这些结果表明,EvoTox是一种有效且经济的LLM毒性测试方法。
🎯 应用场景
EvoTox可用于评估和改进大型语言模型的安全性,降低其在实际应用中产生有害内容的风险。该框架可应用于各种场景,如聊天机器人、内容生成、智能助手等,帮助开发者和用户更好地了解和控制LLM的行为,构建更安全可靠的人工智能系统。
📄 摘要(原文)
Language is a deep-rooted means of perpetration of stereotypes and discrimination. Large Language Models (LLMs), now a pervasive technology in our everyday lives, can cause extensive harm when prone to generating toxic responses. The standard way to address this issue is to align the LLM , which, however, dampens the issue without constituting a definitive solution. Therefore, testing LLM even after alignment efforts remains crucial for detecting any residual deviations with respect to ethical standards. We present EvoTox, an automated testing framework for LLMs' inclination to toxicity, providing a way to quantitatively assess how much LLMs can be pushed towards toxic responses even in the presence of alignment. The framework adopts an iterative evolution strategy that exploits the interplay between two LLMs, the System Under Test (SUT) and the Prompt Generator steering SUT responses toward higher toxicity. The toxicity level is assessed by an automated oracle based on an existing toxicity classifier. We conduct a quantitative and qualitative empirical evaluation using five state-of-the-art LLMs as evaluation subjects having increasing complexity (7-671B parameters). Our quantitative evaluation assesses the cost-effectiveness of four alternative versions of EvoTox against existing baseline methods, based on random search, curated datasets of toxic prompts, and adversarial attacks. Our qualitative assessment engages human evaluators to rate the fluency of the generated prompts and the perceived toxicity of the responses collected during the testing sessions. Results indicate that the effectiveness, in terms of detected toxicity level, is significantly higher than the selected baseline methods (effect size up to 1.0 against random search and up to 0.99 against adversarial attacks). Furthermore, EvoTox yields a limited cost overhead (from 22% to 35% on average).