Evaluation without Generation: Non-Generative Assessment of Harmful Model Specialization with Applications to CSAM
作者: Vinith M. Suriyakumar, Ayush Sekhari, Lena Stempfle, Robertson Wang, Michael Simpson, Rebecca Portnoff, Marzyeh Ghassemi, Ashia C. Wilson
分类: cs.LG, cs.CY
发布日期: 2026-04-28
💡 一句话要点
提出高斯探测方法,无需生成即可评估模型在CSAM等有害领域的专业化能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 非生成评估 模型安全 有害内容检测 高斯探测 LoRA适配器
📋 核心要点
- 现有生成式评估方法在平台级审计中存在扩展性问题,且在CSAM等领域因法律限制无法应用。
- 提出高斯探测方法,通过分析模型内部表示对高斯噪声的响应来推断模型能力,无需生成输出。
- 实验表明,该方法能有效区分良性和有害的专业化模型,且对权重缩放等对抗攻击具有鲁棒性。
📝 摘要(中文)
针对开放权重生成模型微调后可能产生的有害专业化问题,本文提出了一种非生成式评估方法。传统的生成式评估方法(如人工标注或红队测试)无法扩展到平台级审计,并且在儿童性虐待材料(CSAM)等领域受到法律限制。因此,本文提出了“无生成评估”问题:即在不产生输出的情况下评估模型能力。我们认为,在这种情况下,能力必须从模型的状态(参数或内部表示)推断。我们引入了高斯探测,通过测量模型对高斯潜在集合的响应来表征LoRA适配器如何扰动模型的内部表示。与原始权重基线不同,高斯探测能够可靠地区分良性和有害的专业化,而无需采样输出。我们在高风险领域(包括检测专门用于儿童性虐待材料(CSAM)的模型)中证明了其有效性,在这些领域,基于输出的评估在法律和伦理上受到限制。结果表明,高斯探测为评估高风险生成系统提供了一种可扩展的非生成替代方案,并且对权重重新缩放(一种代表性的对抗性操作)具有鲁棒性。
🔬 方法详解
问题定义:论文旨在解决对生成模型进行有害专业化评估的问题,尤其是在儿童性虐待材料(CSAM)等高风险领域。传统的评估方法依赖于生成模型的输出,但这种方法在平台级审计中难以扩展,并且在某些领域(如CSAM)受到法律和伦理的限制。现有方法的痛点在于无法在不生成有害内容的情况下评估模型的能力。
核心思路:论文的核心思路是通过分析模型的内部表示来推断其能力,而不是依赖于模型的输出。具体来说,论文假设模型的内部表示包含了关于其专业化能力的信息,可以通过某种方式来提取和分析这些信息。通过观察模型对特定输入的内部响应,可以推断出模型是否已经专门针对有害任务进行了微调。
技术框架:论文提出的高斯探测方法主要包含以下几个阶段:1) 使用LoRA适配器对模型进行微调,使其专门针对特定任务(包括有害任务和良性任务);2) 构建高斯潜在集合,即从高斯分布中采样得到的一组随机向量;3) 将这些高斯向量输入到模型中,并记录模型在不同层的内部表示;4) 分析这些内部表示,以确定LoRA适配器对模型内部表示的扰动程度;5) 使用分类器来区分良性和有害的专业化模型。
关键创新:最重要的技术创新点在于提出了高斯探测方法,这是一种非生成式的评估方法,可以在不生成输出的情况下评估模型的能力。与现有方法相比,高斯探测不需要依赖于生成模型的输出,因此可以避免法律和伦理上的问题,并且可以扩展到平台级审计。此外,高斯探测还可以检测到一些对抗性攻击,例如权重重新缩放。
关键设计:高斯探测的关键设计包括:1) 使用LoRA适配器进行微调,这可以减少计算成本,并且可以更容易地分析模型的内部表示;2) 使用高斯潜在集合作为输入,这可以确保输入的多样性,并且可以更容易地分析模型的内部表示;3) 使用分类器来区分良性和有害的专业化模型,这可以提高评估的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,高斯探测方法能够有效地区分良性和有害的专业化模型,而无需生成输出。在高风险领域(如CSAM检测)中,高斯探测的性能优于原始权重基线。此外,实验还表明,高斯探测对权重重新缩放等对抗性攻击具有鲁棒性,这表明该方法具有一定的实用价值。
🎯 应用场景
该研究成果可应用于模型托管平台,用于审核和监控用户上传的生成模型,防止其被用于生成有害内容,例如儿童性虐待材料。此外,该方法还可以用于评估其他高风险领域的生成模型,例如用于生成虚假新闻或进行网络欺诈的模型。该研究有助于构建更安全、更负责任的AI生态系统。
📄 摘要(原文)
Auditing the fine-tunes of open-weight generative models for harmful specialization has become a new governance challenge for model hosting platforms. The standard toolkit, generative evaluation via curated prompts or red-teaming, does not scale to platform-level auditing and breaks down entirely for domains like CSAM where generation is legally constrained. This motivates the Evaluation without Generation problem: assessing model capabilities without producing outputs. We argue that in such settings, capability must be inferred from the model's state, either its parameters or internal representations, rather than its outputs. We introduce Gaussian probing, a method that characterizes how LoRA adaptors perturb a model's internal representations by measuring responses to Gaussian latent ensembles. Unlike raw-weight baselines, Gaussian probing reliably distinguishes benign from harmful specialization without sampling outputs. We demonstrate effectiveness in high-risk domains, including detecting models specialized for child sexual abuse material (CSAM), where output-based evaluation is legally and ethically constrained. Our results show that Gaussian probing provides a scalable non-generative alternative for evaluating high-risk generative systems and remains robust to weight rescaling, a representative adversarial manipulation.