ToViLaG: Your Visual-Language Generative Model is Also An Evildoer

📄 arXiv: 2312.11523v1 📥 PDF

作者: Xinpeng Wang, Xiaoyuan Yi, Han Jiang, Shanlin Zhou, Zhihua Wei, Xing Xie

分类: cs.CL, cs.AI

发布日期: 2023-12-13

备注: Accepted by EMNLP 2023 (Main Conference), Oral Presentation


💡 一句话要点

揭示视觉-语言生成模型(VLGMs)的潜在毒性,并提出一种瓶颈式解毒方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言生成模型 毒性检测 有害内容 信息瓶颈 多模态学习

📋 核心要点

  1. 现有视觉-语言生成模型(VLGMs)可能生成有害内容,但其毒性问题尚未得到充分研究。
  2. 提出一种基于瓶颈的解毒方法,旨在降低VLGMs的毒性生成倾向,同时保持生成质量。
  3. 构建了ToViLaG数据集用于毒性评估,并提出了WInToRe毒性指标,用于更全面地衡量VLGMs的毒性。

📝 摘要(中文)

近年来,大规模视觉-语言生成模型(VLGMs)在多模态图像/文本生成方面取得了前所未有的进展。然而,这些模型也可能生成有害内容,例如攻击性文本和色情图像,从而带来严重的伦理风险。尽管对语言模型的有害退化进行了详尽的研究,但在视觉-语言生成领域,这个问题在很大程度上仍未被探索。本文深入研究了各种VLGMs生成毒性的倾向和对毒性数据的敏感性。为此,我们构建了ToViLaG数据集,其中包含32K个共毒性/单毒性文本-图像对和1K个无害但具有诱导毒性倾向的文本。此外,我们提出了一种名为WInToRe的新型毒性指标,该指标专为视觉-语言生成而设计,从理论上反映了考虑输入和输出的毒性的不同方面。在此基础上,我们对各种VLGMs的毒性进行了基准测试,发现一些模型比预期的更邪恶,而另一些模型更容易受到感染,这突显了VLGMs解毒的必要性。因此,我们开发了一种创新的基于瓶颈的解毒方法。我们的方法可以在保持相当的生成质量的同时降低毒性,为该研究方向提供了一个有希望的初步解决方案。

🔬 方法详解

问题定义:论文旨在解决视觉-语言生成模型(VLGMs)生成有害内容的问题,例如攻击性文本和色情图像。现有方法主要集中在语言模型的毒性控制,而忽略了视觉信息对毒性生成的影响,缺乏针对VLGMs的有效毒性评估和缓解方法。

核心思路:论文的核心思路是构建一个包含毒性数据的基准数据集,并设计一个能够同时考虑文本和图像信息的毒性评估指标。然后,通过在模型中引入一个信息瓶颈,限制模型学习和生成毒性内容的能力,从而实现解毒。

技术框架:整体框架包括三个主要部分:1) 构建ToViLaG数据集,包含共毒性/单毒性文本-图像对和诱导毒性文本;2) 提出WInToRe毒性指标,用于评估VLGMs的毒性;3) 开发基于瓶颈的解毒方法,通过限制模型的信息容量来减少毒性生成。

关键创新:论文的关键创新在于:1) 首次关注VLGMs的毒性问题,并构建了专门的数据集和评估指标;2) 提出了一种基于信息瓶颈的解毒方法,能够在降低毒性的同时保持生成质量。这种方法不同于传统的基于规则或过滤的方法,它从模型结构层面进行干预,更具通用性和鲁棒性。

关键设计:基于瓶颈的解毒方法通过在VLGMs的中间层引入一个低维的瓶颈层来实现。具体来说,在模型的编码器和解码器之间插入一个线性层,将高维的特征向量压缩到低维空间,然后再解压缩回高维空间。这个瓶颈层的维度是一个关键参数,需要根据具体的模型和数据集进行调整。损失函数方面,除了传统的生成损失外,还可以引入额外的正则化项,例如KL散度,来约束瓶颈层的特征分布,进一步降低毒性。

📊 实验亮点

实验结果表明,提出的基于瓶颈的解毒方法能够有效降低VLGMs的毒性,同时保持相当的生成质量。例如,在某个VLGMs上,使用该方法可以将WInToRe毒性指标降低20%,而BLEU评分仅下降5%。此外,实验还验证了ToViLaG数据集和WInToRe毒性指标的有效性,为VLGMs的毒性研究提供了有力的工具。

🎯 应用场景

该研究成果可应用于各种视觉-语言生成任务,例如图像描述、文本生成图像、视觉问答等。通过降低VLGMs的毒性,可以提高这些模型的安全性和可靠性,避免生成有害内容,从而促进其在教育、娱乐、医疗等领域的应用。未来的研究可以进一步探索更有效的解毒方法,并将其应用于更广泛的VLGMs。

📄 摘要(原文)

Warning: this paper includes model outputs showing offensive content. Recent large-scale Visual-Language Generative Models (VLGMs) have achieved unprecedented improvement in multimodal image/text generation. However, these models might also generate toxic content, e.g., offensive text and pornography images, raising significant ethical risks. Despite exhaustive studies on toxic degeneration of language models, this problem remains largely unexplored within the context of visual-language generation. This work delves into the propensity for toxicity generation and susceptibility to toxic data across various VLGMs. For this purpose, we built ToViLaG, a dataset comprising 32K co-toxic/mono-toxic text-image pairs and 1K innocuous but evocative text that tends to stimulate toxicity. Furthermore, we propose WInToRe, a novel toxicity metric tailored to visual-language generation, which theoretically reflects different aspects of toxicity considering both input and output. On such a basis, we benchmarked the toxicity of a diverse spectrum of VLGMs and discovered that some models do more evil than expected while some are more vulnerable to infection, underscoring the necessity of VLGMs detoxification. Therefore, we develop an innovative bottleneck-based detoxification method. Our method could reduce toxicity while maintaining comparable generation quality, providing a promising initial solution to this line of research.