It Takes One to Bias Them All: Breaking Bad with One-Shot GRPO

📄 arXiv: 2606.10931v1 📥 PDF

作者: Naihao Deng, Yilun Zhu, Naichen Shi, Clayton Scott, Rada Mihalcea

分类: cs.CL

发布日期: 2026-06-09


💡 一句话要点

提出一种单例GRPO方法以揭示语言模型的偏见脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏见检测 群体相对策略优化 公平性评估 系统性偏见

📋 核心要点

  1. 现有的大型语言模型在后训练阶段的对齐机制存在被单一偏见示例打破的风险。
  2. 论文提出通过一次性GRPO训练,利用单个偏见示例来引入系统性偏见的核心思路。
  3. 实验结果表明,模型对偏见的敏感性因初始输出的偏见可能性而异,揭示了对齐的脆弱性。

📝 摘要(中文)

现代大型语言模型(LLMs)通常通过大规模后训练进行对齐,以确保其公平和可靠的行为。然而,本研究探讨了如何通过群体相对策略优化(GRPO)轻易打破这些保护措施。我们发现,仅通过对单个偏见示例进行一次性GRPO训练,就足以引发系统性偏见,并且这种基于刻板印象的推理能够在不同属性、类别和基准之间进行泛化。此外,我们还发现模型在产生偏见输出的初始可能性上存在差异,这揭示了后训练中的一个关键脆弱性:单个示例可以覆盖对齐效果。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在后训练阶段的对齐机制脆弱性,尤其是如何被单一偏见示例所打破。现有方法未能充分考虑这种脆弱性,导致模型可能产生不公平的输出。

核心思路:论文的核心思路是通过一次性GRPO训练,利用单个偏见示例来引发系统性偏见。这种设计旨在揭示模型在面对偏见示例时的脆弱性,强调对齐机制的不足。

技术框架:整体架构包括数据收集、偏见示例选择、GRPO训练过程和模型评估四个主要模块。首先收集包含偏见的示例,然后进行一次性GRPO训练,最后评估模型在不同基准上的表现。

关键创新:最重要的技术创新点在于提出了一种通过单个示例引入系统性偏见的方法,显示了模型对偏见的敏感性与初始输出的偏见可能性之间的关系。这与现有方法的本质区别在于,后者通常依赖于大量数据进行训练。

关键设计:关键设计包括选择具有代表性的偏见示例、设置合适的损失函数以强化偏见输出,以及调整模型的训练参数以确保有效的GRPO训练过程。

📊 实验亮点

实验结果显示,通过一次性GRPO训练,模型在多个基准上表现出显著的偏见输出,特别是在初始偏见可能性较高的情况下。这一发现强调了后训练对齐机制的脆弱性,表明仅需一个偏见示例即可导致系统性偏见的产生。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的公平性评估、偏见检测与修正,以及大型语言模型的安全性研究。通过揭示模型的脆弱性,研究可以帮助开发更为健壮和公平的语言模型,减少社会偏见的传播。

📄 摘要(原文)

Warning: This paper contains several toxic and offensive statements. Modern large language models (LLMs) are typically aligned through large-scale post-training to ensure fair and reliable behavior. In this work, we investigate how easily such guardrails can be broken by Group Relative Policy Optimization (GRPO). We show that one-shot GRPO training on a single biased example is sufficient to induce systematic bias, with stereotype-driven reasoning generalizing across attributes, categories, and benchmarks. We further find that models differ in their susceptibility based on the initial likelihood of producing biased outputs. Our results reveal a critical vulnerability in post-training: alignment can be overridden by a single example.