ASTRAL: Automated Safety Testing of Large Language Models
作者: Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura, Aitor Arrieta
分类: cs.SE, cs.CL
发布日期: 2025-01-28
期刊: The 6th ACM/IEEE International Conference on Automation of Software Test (AST 2025)
💡 一句话要点
ASTRAL:一种用于大规模语言模型自动化安全测试的框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大规模语言模型 安全测试 自动化测试 黑盒测试 检索增强生成 测试预言机 GPT3.5
📋 核心要点
- 现有LLM安全测试框架面临数据集不平衡和过时的挑战,难以有效识别潜在的安全风险。
- ASTRAL通过黑盒覆盖标准和检索增强生成技术,自动生成多样且最新的不安全测试用例。
- 实验表明,ASTRAL能以更少的测试用例发现更多不安全行为,且GPT3.5作为测试预言机表现最佳。
📝 摘要(中文)
大规模语言模型(LLMs)因其理解和生成复杂类人内容的能力而备受关注。然而,确保其安全性至关重要,因为它们可能会提供有害和不安全的响应。现有的LLM测试框架解决了各种与安全相关的问题(例如,毒品、恐怖主义、虐待动物),但通常面临数据集不平衡和过时的挑战。本文提出了ASTRAL,一种自动生成和执行测试用例(即提示)以测试LLM安全性的工具。首先,我们引入了一种新颖的黑盒覆盖标准,以在不同的安全类别以及语言写作特征(即,不同的风格和有说服力的写作技巧)中生成平衡且多样化的不安全测试输入。其次,我们提出了一种基于LLM的方法,该方法利用检索增强生成(RAG)、少样本提示策略和网络浏览来生成最新的测试输入。最后,与当前的LLM测试自动化技术类似,我们利用LLM作为测试预言机来区分安全和不安全的测试输出,从而实现完全自动化的测试方法。我们对知名的LLM进行了广泛的评估,揭示了以下关键发现:i)GPT3.5在充当测试预言机时优于其他LLM,能够准确地检测不安全的响应,甚至超过了更新的LLM(例如,GPT-4)以及专门用于检测不安全LLM输出的LLM(例如,LlamaGuard);ii)结果证实,与当前使用的静态数据集相比,我们的方法可以使用相同数量的测试输入发现近两倍的不安全LLM行为;iii)我们的黑盒覆盖标准与网络浏览相结合可以有效地指导LLM生成最新的不安全测试输入,从而显著增加不安全LLM行为的数量。
🔬 方法详解
问题定义:论文旨在解决大规模语言模型(LLM)安全测试中,现有方法依赖静态数据集导致测试用例过时、覆盖不全的问题。现有方法难以有效发现LLM潜在的不安全行为,例如生成有害信息、传播偏见等。
核心思路:论文的核心思路是自动化生成多样且最新的不安全测试用例,并利用LLM本身作为测试预言机来判断响应的安全性。通过黑盒覆盖标准引导测试用例生成,确保覆盖不同的安全类别和语言风格,同时利用检索增强生成(RAG)和网络浏览获取最新的信息,从而生成更具挑战性的测试用例。
技术框架:ASTRAL框架包含以下主要模块:1) 测试用例生成器:利用黑盒覆盖标准、RAG和网络浏览自动生成测试用例;2) LLM执行器:将生成的测试用例输入待测LLM,获取响应;3) 测试预言机:使用LLM(如GPT3.5)判断响应是否安全。整个流程是全自动化的,无需人工干预。
关键创新:论文的关键创新在于:1) 提出了基于黑盒覆盖标准的测试用例生成方法,能够生成更平衡和多样化的测试用例;2) 利用RAG和网络浏览获取最新的信息,从而生成更具挑战性的测试用例;3) 验证了LLM作为测试预言机的有效性,特别是GPT3.5的表现优于其他LLM。
关键设计:黑盒覆盖标准包括安全类别覆盖和语言风格覆盖。安全类别覆盖确保测试用例覆盖不同的安全风险,如毒品、恐怖主义等。语言风格覆盖则考虑不同的写作风格和说服技巧。RAG模块利用外部知识库和网络信息来增强测试用例的生成。测试预言机使用少样本提示策略,引导LLM判断响应的安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ASTRAL能够发现比现有静态数据集多近两倍的不安全LLM行为。GPT3.5作为测试预言机表现最佳,甚至优于GPT-4和LlamaGuard等专门的安全检测模型。黑盒覆盖标准结合网络浏览能有效指导LLM生成最新的不安全测试输入,显著提升了不安全行为的发现能力。
🎯 应用场景
ASTRAL可应用于大规模语言模型的安全评估和风险控制,帮助开发者发现和修复潜在的安全漏洞,降低LLM被滥用的风险。该研究成果对于构建安全可靠的人工智能系统具有重要意义,可促进LLM在各个领域的安全应用,例如智能客服、内容生成、教育等。
📄 摘要(原文)
Large Language Models (LLMs) have recently gained attention due to their ability to understand and generate sophisticated human-like content. However, ensuring their safety is paramount as they might provide harmful and unsafe responses. Existing LLM testing frameworks address various safety-related concerns (e.g., drugs, terrorism, animal abuse) but often face challenges due to unbalanced and obsolete datasets. In this paper, we present ASTRAL, a tool that automates the generation and execution of test cases (i.e., prompts) for testing the safety of LLMs. First, we introduce a novel black-box coverage criterion to generate balanced and diverse unsafe test inputs across a diverse set of safety categories as well as linguistic writing characteristics (i.e., different style and persuasive writing techniques). Second, we propose an LLM-based approach that leverages Retrieval Augmented Generation (RAG), few-shot prompting strategies and web browsing to generate up-to-date test inputs. Lastly, similar to current LLM test automation techniques, we leverage LLMs as test oracles to distinguish between safe and unsafe test outputs, allowing a fully automated testing approach. We conduct an extensive evaluation on well-known LLMs, revealing the following key findings: i) GPT3.5 outperforms other LLMs when acting as the test oracle, accurately detecting unsafe responses, and even surpassing more recent LLMs (e.g., GPT-4), as well as LLMs that are specifically tailored to detect unsafe LLM outputs (e.g., LlamaGuard); ii) the results confirm that our approach can uncover nearly twice as many unsafe LLM behaviors with the same number of test inputs compared to currently used static datasets; and iii) our black-box coverage criterion combined with web browsing can effectively guide the LLM on generating up-to-date unsafe test inputs, significantly increasing the number of unsafe LLM behaviors.