ASTRAL: Automated Safety Testing of Large Language Models

作者: Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura, Aitor Arrieta

分类: cs.SE, cs.CL

发布日期: 2025-01-28

期刊: The 6th ACM/IEEE International Conference on Automation of Software Test (AST 2025)

💡 一句话要点

ASTRAL：一种用于大规模语言模型自动化安全测试的框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 安全测试 自动化测试 黑盒测试 检索增强生成 测试预言机 GPT3.5

📋 核心要点

现有LLM安全测试框架面临数据集不平衡和过时的挑战，难以有效识别潜在的安全风险。
ASTRAL通过黑盒覆盖标准和检索增强生成技术，自动生成多样且最新的不安全测试用例。
实验表明，ASTRAL能以更少的测试用例发现更多不安全行为，且GPT3.5作为测试预言机表现最佳。

📝 摘要（中文）

大规模语言模型（LLMs）因其理解和生成复杂类人内容的能力而备受关注。然而，确保其安全性至关重要，因为它们可能会提供有害和不安全的响应。现有的LLM测试框架解决了各种与安全相关的问题（例如，毒品、恐怖主义、虐待动物），但通常面临数据集不平衡和过时的挑战。本文提出了ASTRAL，一种自动生成和执行测试用例（即提示）以测试LLM安全性的工具。首先，我们引入了一种新颖的黑盒覆盖标准，以在不同的安全类别以及语言写作特征（即，不同的风格和有说服力的写作技巧）中生成平衡且多样化的不安全测试输入。其次，我们提出了一种基于LLM的方法，该方法利用检索增强生成（RAG）、少样本提示策略和网络浏览来生成最新的测试输入。最后，与当前的LLM测试自动化技术类似，我们利用LLM作为测试预言机来区分安全和不安全的测试输出，从而实现完全自动化的测试方法。我们对知名的LLM进行了广泛的评估，揭示了以下关键发现：i）GPT3.5在充当测试预言机时优于其他LLM，能够准确地检测不安全的响应，甚至超过了更新的LLM（例如，GPT-4）以及专门用于检测不安全LLM输出的LLM（例如，LlamaGuard）；ii）结果证实，与当前使用的静态数据集相比，我们的方法可以使用相同数量的测试输入发现近两倍的不安全LLM行为；iii）我们的黑盒覆盖标准与网络浏览相结合可以有效地指导LLM生成最新的不安全测试输入，从而显著增加不安全LLM行为的数量。

🔬 方法详解

问题定义：论文旨在解决大规模语言模型（LLM）安全测试中，现有方法依赖静态数据集导致测试用例过时、覆盖不全的问题。现有方法难以有效发现LLM潜在的不安全行为，例如生成有害信息、传播偏见等。

核心思路：论文的核心思路是自动化生成多样且最新的不安全测试用例，并利用LLM本身作为测试预言机来判断响应的安全性。通过黑盒覆盖标准引导测试用例生成，确保覆盖不同的安全类别和语言风格，同时利用检索增强生成（RAG）和网络浏览获取最新的信息，从而生成更具挑战性的测试用例。

技术框架：ASTRAL框架包含以下主要模块：1) 测试用例生成器：利用黑盒覆盖标准、RAG和网络浏览自动生成测试用例；2) LLM执行器：将生成的测试用例输入待测LLM，获取响应；3) 测试预言机：使用LLM（如GPT3.5）判断响应是否安全。整个流程是全自动化的，无需人工干预。

关键创新：论文的关键创新在于：1) 提出了基于黑盒覆盖标准的测试用例生成方法，能够生成更平衡和多样化的测试用例；2) 利用RAG和网络浏览获取最新的信息，从而生成更具挑战性的测试用例；3) 验证了LLM作为测试预言机的有效性，特别是GPT3.5的表现优于其他LLM。

关键设计：黑盒覆盖标准包括安全类别覆盖和语言风格覆盖。安全类别覆盖确保测试用例覆盖不同的安全风险，如毒品、恐怖主义等。语言风格覆盖则考虑不同的写作风格和说服技巧。RAG模块利用外部知识库和网络信息来增强测试用例的生成。测试预言机使用少样本提示策略，引导LLM判断响应的安全性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ASTRAL能够发现比现有静态数据集多近两倍的不安全LLM行为。GPT3.5作为测试预言机表现最佳，甚至优于GPT-4和LlamaGuard等专门的安全检测模型。黑盒覆盖标准结合网络浏览能有效指导LLM生成最新的不安全测试输入，显著提升了不安全行为的发现能力。

🎯 应用场景

ASTRAL可应用于大规模语言模型的安全评估和风险控制，帮助开发者发现和修复潜在的安全漏洞，降低LLM被滥用的风险。该研究成果对于构建安全可靠的人工智能系统具有重要意义，可促进LLM在各个领域的安全应用，例如智能客服、内容生成、教育等。

📄 摘要（原文）

Large Language Models (LLMs) have recently gained attention due to their ability to understand and generate sophisticated human-like content. However, ensuring their safety is paramount as they might provide harmful and unsafe responses. Existing LLM testing frameworks address various safety-related concerns (e.g., drugs, terrorism, animal abuse) but often face challenges due to unbalanced and obsolete datasets. In this paper, we present ASTRAL, a tool that automates the generation and execution of test cases (i.e., prompts) for testing the safety of LLMs. First, we introduce a novel black-box coverage criterion to generate balanced and diverse unsafe test inputs across a diverse set of safety categories as well as linguistic writing characteristics (i.e., different style and persuasive writing techniques). Second, we propose an LLM-based approach that leverages Retrieval Augmented Generation (RAG), few-shot prompting strategies and web browsing to generate up-to-date test inputs. Lastly, similar to current LLM test automation techniques, we leverage LLMs as test oracles to distinguish between safe and unsafe test outputs, allowing a fully automated testing approach. We conduct an extensive evaluation on well-known LLMs, revealing the following key findings: i) GPT3.5 outperforms other LLMs when acting as the test oracle, accurately detecting unsafe responses, and even surpassing more recent LLMs (e.g., GPT-4), as well as LLMs that are specifically tailored to detect unsafe LLM outputs (e.g., LlamaGuard); ii) the results confirm that our approach can uncover nearly twice as many unsafe LLM behaviors with the same number of test inputs compared to currently used static datasets; and iii) our black-box coverage criterion combined with web browsing can effectively guide the LLM on generating up-to-date unsafe test inputs, significantly increasing the number of unsafe LLM behaviors.

ASTRAL: Automated Safety Testing of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理