GAN-enhanced Simulation-driven DNN Testing in Absence of Ground Truth

📄 arXiv: 2503.15953v1 📥 PDF

作者: Mohammed Attaoui, Fabrizio Pastore

分类: cs.SE, cs.AI

发布日期: 2025-03-20

备注: 15 pages, 8 figures, 13 tables


💡 一句话要点

提出GAN增强的模拟驱动DNN测试方法,解决无真值标签下的测试难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度神经网络测试 生成对抗网络 模拟器 启发式搜索 变换一致性 无真值标签学习 计算机视觉 模型再训练

📋 核心要点

  1. 针对安全关键系统DNN组件的测试,模拟器生成合成输入至关重要,但常缺乏真值标签。
  2. 提出集成GAN的模拟驱动测试方法,利用启发式适应度函数,无需真值标签即可指导搜索过程。
  3. 实验表明,变换一致性在生成测试和再训练输入方面表现最佳,提升了输入多样性和模型性能。

📝 摘要(中文)

本文提出了一种针对计算机视觉深度神经网络(DNN)的输入生成方法,用于在缺乏真值标签的情况下进行测试。该方法集成了生成对抗网络(GAN)以确保模拟器的逼真度,并采用基于启发式的搜索适应度函数,利用变换一致性、噪声抵抗、惊奇充分性和不确定性估计。论文将这些适应度函数的性能与利用真值标签的传统适应度函数进行比较,并评估了集成不利用真值标签的GAN对测试和再训练有效性的影响。结果表明,利用变换一致性是生成用于DNN测试和再训练输入的最佳选择;它最大化了输入多样性,发现了导致DNN性能下降的输入,并在再训练后实现了最佳的DNN性能。除了在缺乏真值标签的情况下实现基于模拟器的测试外,该研究还为使用扩散模型和大型语言模型替代昂贵的模拟器铺平了道路,这些模型可能比模拟器更经济,但无法生成真值数据。

🔬 方法详解

问题定义:论文旨在解决在缺乏真值标签的情况下,如何有效地测试和改进基于模拟器的计算机视觉深度神经网络(DNN)。现有方法依赖于模拟器生成带有真值标签的数据,但许多应用场景下,模拟器无法提供此类数据,导致无法进行自动测试和优化。

核心思路:核心思路是利用生成对抗网络(GAN)来增强模拟器的逼真度,并设计一系列基于启发式的适应度函数,这些函数不需要真值标签,而是通过评估输入在不同变换下的表现、对噪声的抵抗能力、以及模型预测的不确定性等指标,来指导搜索算法生成有效的测试用例。

技术框架:整体框架包含三个主要部分:1) 模拟器:用于生成合成图像;2) GAN:用于提高合成图像的真实感;3) 基于启发式适应度函数的搜索算法:用于生成能够有效测试DNN的输入。搜索算法通过最大化适应度函数来寻找能够暴露DNN缺陷的输入。

关键创新:关键创新在于提出了一系列不需要真值标签的启发式适应度函数,包括:变换一致性(Transformation Consistency)、噪声抵抗(Noise Resistance)、惊奇充分性(Surprise Adequacy)和不确定性估计(Uncertainty Estimation)。这些适应度函数能够有效地评估输入对DNN的影响,而无需依赖真值标签。

关键设计:变换一致性通过对输入进行一系列变换(如旋转、缩放、平移),并评估DNN在变换后的输入上的预测一致性来衡量输入的有效性。噪声抵抗通过向输入添加噪声,并评估DNN预测的稳定性来衡量输入的鲁棒性。惊奇充分性通过衡量输入激活DNN中不常激活的神经元来评估输入的稀有程度。不确定性估计通过评估DNN预测结果的不确定性来衡量输入是否接近决策边界。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,利用变换一致性(Transformation Consistency)作为适应度函数,在DNN测试和再训练方面表现最佳。该方法能够最大化输入的多样性,发现导致DNN性能下降的输入,并在再训练后显著提升DNN的性能。与其他启发式适应度函数相比,变换一致性在测试和再训练效果上均取得了更好的结果。

🎯 应用场景

该研究成果可应用于安全关键系统的计算机视觉DNN测试,例如自动驾驶、医疗诊断等领域。它降低了对昂贵且难以生成真值标签的模拟器的依赖,为使用更经济的扩散模型和大型语言模型进行DNN测试和改进提供了可能性,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

The generation of synthetic inputs via simulators driven by search algorithms is essential for cost-effective testing of Deep Neural Network (DNN) components for safety-critical systems. However, in many applications, simulators are unable to produce the ground-truth data needed for automated test oracles and to guide the search process. To tackle this issue, we propose an approach for the generation of inputs for computer vision DNNs that integrates a generative network to ensure simulator fidelity and employs heuristic-based search fitnesses that leverage transformation consistency, noise resistance, surprise adequacy, and uncertainty estimation. We compare the performance of our fitnesses with that of a traditional fitness function leveraging ground truth; further, we assess how the integration of a GAN not leveraging the ground truth impacts on test and retraining effectiveness. Our results suggest that leveraging transformation consistency is the best option to generate inputs for both DNN testing and retraining; it maximizes input diversity, spots the inputs leading to worse DNN performance, and leads to best DNN performance after retraining. Besides enabling simulator-based testing in the absence of ground truth, our findings pave the way for testing solutions that replace costly simulators with diffusion and large language models, which might be more affordable than simulators, but cannot generate ground-truth data.