Learning from Response not Preference: A Stackelberg Approach for LLM Detoxification using Non-parallel Data
作者: Xinhong Xie, Tao Li, Quanyan Zhu
分类: cs.CL, cs.AI
发布日期: 2024-10-27
🔗 代码/项目: GITHUB
💡 一句话要点
提出Stackelberg响应优化(SRO),利用非平行数据提升LLM文本解毒能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本解毒 大型语言模型 非平行数据 Stackelberg博弈 响应优化 风格迁移 偏好学习
📋 核心要点
- 现有文本解毒方法在非平行数据场景下,由于缺乏明确的偏好信息,难以有效指导LLM进行风格迁移。
- 论文提出Stackelberg响应优化(SRO),将LLM解毒过程建模为领导者-跟随者博弈,利用筛选器的响应信号进行学习。
- 实验结果表明,SRO微调的LLM在解毒性能上可与SOTA模型媲美,且对筛选器的反馈具有高度敏感性。
📝 摘要(中文)
本文提出了一种仅使用非平行数据微调大型语言模型(LLM)以实现文本解毒的方法。我们将微调过程建模为LLM(领导者)和毒性筛选器(跟随者)之间的Stackelberg博弈,其中筛选器是一个二元风格分类器(有毒或无毒)。LLM的目标是根据筛选器的反馈调整其偏好,并生成通过筛选的释义。非平行数据微调的主要挑战是不完整的偏好。对于不成功的释义,分类器无法建立输入和释义之间的偏好,因为它们属于相同的有毒风格。因此,直接偏好优化(DPO)等偏好对齐微调方法不再适用。为了解决不完整偏好的挑战,我们提出了Stackelberg响应优化(SRO),它改编自DPO,使LLM能够从跟随者的响应中学习。SRO的核心思想是,如果释义未能通过筛选器的筛选,则降低生成释义的可能性;而当释义通过筛选时,则对有毒输入及其释义进行DPO。实验表明,经过SRO微调的LLM在风格准确性、内容相似性和流畅性方面达到了与最先进模型相当的令人满意的性能。总体解毒性能超过了其他计算方法,并且与人类参考相匹配。额外的经验证据表明,SRO对筛选器的反馈非常敏感,轻微的扰动会导致性能显著下降。我们发布了代码和LLM模型。
🔬 方法详解
问题定义:论文旨在解决利用非平行数据对大型语言模型进行文本解毒的问题。现有的偏好学习方法,如DPO,依赖于完整的偏好信息,即需要知道哪个文本更“好”。但在非平行数据场景下,如果生成的释义仍然是有毒的,则无法确定原始文本和释义之间的偏好关系,导致DPO等方法失效。
核心思路:论文的核心思路是将LLM的解毒过程建模为一个Stackelberg博弈。LLM作为领导者,负责生成文本释义;毒性筛选器作为跟随者,负责判断释义是否通过筛选。LLM的目标是学习筛选器的偏好,并生成能够通过筛选的释义。通过这种博弈关系,即使在非平行数据场景下,LLM也可以从筛选器的响应中学习,从而实现文本解毒。
技术框架:整体框架包含两个主要部分:LLM(领导者)和毒性筛选器(跟随者)。LLM负责生成原始文本的释义。毒性筛选器是一个二元分类器,用于判断生成的释义是否为有毒文本。Stackelberg响应优化(SRO)算法用于更新LLM的参数,使其能够生成更符合筛选器偏好的释义。SRO算法基于DPO,但针对非平行数据场景进行了修改,使其能够处理不完整的偏好信息。
关键创新:最重要的技术创新点在于提出了Stackelberg响应优化(SRO)算法,该算法能够利用非平行数据对LLM进行微调,实现文本解毒。SRO与现有方法的本质区别在于,它不需要完整的偏好信息,而是通过模拟领导者-跟随者博弈,从筛选器的响应中学习。
关键设计:SRO算法的关键设计在于,当生成的释义通过筛选器时,它会像DPO一样,增加生成该释义的概率;而当生成的释义未通过筛选器时,它会降低生成该释义的概率。这种设计使得LLM能够学习筛选器的偏好,并生成更符合要求的释义。具体的损失函数是DPO的变体,针对筛选器响应进行了调整。论文中没有明确提及具体的网络结构,但可以推断是基于Transformer的LLM架构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过SRO微调的LLM在风格准确性、内容相似性和流畅性方面达到了与最先进模型相当的性能。更重要的是,SRO在总体解毒性能上超过了其他计算方法,并且与人类参考相匹配。此外,实验还表明SRO对筛选器的反馈非常敏感,轻微的扰动会导致性能显著下降。
🎯 应用场景
该研究成果可应用于在线社交媒体平台,自动检测和修改用户发布的不良信息,净化网络环境。此外,该方法还可用于生成更安全、更友好的AI助手,避免AI生成有害或冒犯性内容。未来,该技术有望扩展到其他风格迁移任务,例如将非正式文本转换为正式文本。
📄 摘要(原文)
Text detoxification, a variant of style transfer tasks, finds useful applications in online social media. This work presents a fine-tuning method that only uses non-parallel data to turn large language models (LLM) into a detoxification rewritter. We model the fine-tuning process as a Stackelberg game between an LLM (leader) and a toxicity screener (follower), which is a binary style classifier (toxic or non-toxic). The LLM aims to align its preference according to the screener and generate paraphases passing the screening. The primary challenge of non-parallel data fine-tuning is incomplete preference. In the case of unsuccessful paraphrases, the classifier cannot establish a preference between the input and paraphrase, as they belong to the same toxic style. Hence, preference-alignment fine-tuning methods, such as direct preference optimization (DPO), no longer apply. To address the challenge of incomplete preference, we propose Stackelberg response optimization (SRO), adapted from DPO, to enable the LLM to learn from the follower's response. The gist is that SRO decreases the likelihood of generating the paraphrase if it fails the follower's screening while performing DPO on the pair of the toxic input and its paraphrase when the latter passes the screening. Experiments indicate that the SRO-fine-tunned LLM achieves satisfying performance comparable to state-of-the-art models regarding style accuracy, content similarity, and fluency. The overall detoxification performance surpasses other computing methods and matches the human reference. Additional empirical evidence suggests that SRO is sensitive to the screener's feedback, and a slight perturbation leads to a significant performance drop. We release the code and LLM models at \url{https://github.com/XXXinhong/Detoxification_LLM}.