SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification
作者: Hongbo Wang, MaungMaung AprilPyone, Isao Echizen
分类: cs.CL, cs.AI
发布日期: 2025-12-17 (更新: 2026-01-03)
备注: Under Review for ACL 2026
💡 一句话要点
SGM:通过神经元级解毒为多模态大语言模型提供安全保障
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 毒性检测 神经元干预 安全保障 白盒方法
📋 核心要点
- 多模态大语言模型面临着从预训练数据中继承的毒性、偏见等安全风险,尤其是在对抗性攻击下,现有解毒方法效果不佳。
- SGM通过选择性地抑制模型中负责产生毒性内容的神经元,实现对多模态大语言模型的神经元级别的干预,无需模型参数更新。
- 实验表明,SGM在标准和对抗性条件下均能有效降低模型的毒性,同时保持模型的流畅性和多模态推理能力,且能与其他解毒方法结合使用。
📝 摘要(中文)
免责声明:本文中的样本可能有害并引起不适。多模态大语言模型(MLLM)实现了多模态生成,但也继承了来自弱策展预训练语料库中的毒性、偏见和NSFW信号,导致安全风险,尤其是在对抗性触发下,这使得后期、不透明的无训练解毒方法难以处理。我们提出了SGM,一种白盒神经元级多模态干预方法,它就像有毒神经元的安全眼镜:它通过专业知识加权的软抑制选择性地重新校准一小部分有毒的专家神经元,从而在没有任何参数更新的情况下中和有害的跨模态激活。我们建立了MM-TOXIC-QA,一个多模态毒性评估框架,并将SGM与现有的解毒技术进行了比较。在开源MLLM上的实验表明,SGM减轻了标准和对抗条件下的毒性,将有害率从48.2%降低到2.5%,同时保持了流畅性和多模态推理能力。SGM是可扩展的,其组合防御,表示为SGM*,与现有的解毒方法集成,以获得更强的安全性能,为毒性控制的多模态生成提供了一种可解释的低成本解决方案。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在生成内容时,容易受到预训练数据中存在的毒性信息的影响,产生有害或不安全的内容。现有的解毒方法,如后期处理或对抗训练,通常难以有效应对复杂的对抗性攻击,且缺乏可解释性。因此,如何安全可控地生成多模态内容是一个亟待解决的问题。
核心思路:SGM的核心思路是识别并抑制模型中负责生成毒性内容的“有毒神经元”。通过分析模型内部的激活状态,找到与毒性输出相关的神经元,并对其进行选择性的抑制,从而降低模型生成有害内容的概率。这种方法类似于给模型戴上“安全眼镜”,过滤掉有害信息。
技术框架:SGM主要包含以下几个步骤:1) 毒性神经元识别:使用特定的数据集和评估指标,识别模型中与毒性输出相关的神经元。2) 专家权重计算:根据神经元对不同类型输入的响应,计算每个神经元的专家权重,用于后续的软抑制。3) 神经元软抑制:根据专家权重,对识别出的有毒神经元进行选择性的抑制,降低其激活强度。4) 多模态毒性评估:使用MM-TOXIC-QA框架评估模型的毒性水平。
关键创新:SGM的关键创新在于其白盒神经元级别的干预方式。与传统的黑盒方法不同,SGM能够直接干预模型内部的神经元,从而更精确地控制模型的输出。此外,SGM无需对模型参数进行更新,降低了计算成本和训练难度。
关键设计:SGM的关键设计包括:1) 专家权重:使用专家权重来衡量神经元对不同类型输入的响应,从而实现更精细的抑制。2) 软抑制:使用软抑制而不是硬抑制,避免对模型的性能产生过大的影响。3) MM-TOXIC-QA框架:使用该框架对模型的毒性进行全面评估,包括标准和对抗性条件下的毒性。
🖼️ 关键图片
📊 实验亮点
SGM在开源MLLM上进行了实验,结果表明,SGM能够显著降低模型的毒性,将有害率从48.2%降低到2.5%,同时保持了模型的流畅性和多模态推理能力。此外,SGM可以与其他解毒方法集成,进一步提高模型的安全性。MM-TOXIC-QA框架为多模态毒性评估提供了一个新的基准。
🎯 应用场景
SGM可应用于各种需要安全可控的多模态内容生成的场景,例如智能客服、内容创作平台、教育辅助系统等。通过降低模型生成有害内容的风险,SGM能够提高用户体验,并促进多模态大语言模型在更广泛领域的应用。未来,SGM可以进一步扩展到其他类型的安全问题,如偏见消除和隐私保护。
📄 摘要(原文)
Disclaimer: Samples in this paper may be harmful and cause discomfort. Multimodal large language models (MLLMs) enable multimodal generation but inherit toxic, biased, and NSFW signals from weakly curated pretraining corpora, causing safety risks, especially under adversarial triggers that late, opaque training-free detoxification methods struggle to handle. We propose SGM, a white-box neuron-level multimodal intervention that acts like safety glasses for toxic neurons: it selectively recalibrates a small set of toxic expert neurons via expertise-weighted soft suppression, neutralizing harmful cross-modal activations without any parameter updates. We establish MM-TOXIC-QA, a multimodal toxicity evaluation framework, and compare SGM with existing detoxification techniques. Experiments on open-source MLLMs show that SGM mitigates toxicity in standard and adversarial conditions, cutting harmful rates from 48.2\% to 2.5\% while preserving fluency and multimodal reasoning. SGM is extensible, and its combined defenses, denoted as SGM*, integrate with existing detoxification methods for stronger safety performance, providing an interpretable, low-cost solution for toxicity-controlled multimodal generation.