Compositional Bias Control in Large Language Models: Preference Learning Fails, Supervision Succeeds

📄 arXiv: 2510.22084v1 📥 PDF

作者: Atij Mahesh

分类: cs.CL

发布日期: 2025-10-24

备注: 20 pages


💡 一句话要点

对比研究表明,监督微调优于偏好学习,能有效控制大语言模型中的组合偏见。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 偏见缓解 组合约束 监督微调 偏好学习 公平性 文本生成

📋 核心要点

  1. 大型语言模型在生成文本时存在组合偏见,尤其是在涉及性别和职业等属性时,现有方法难以有效缓解。
  2. 论文提出对比分析六种偏见缓解技术,包括提示工程、约束解码、监督微调和偏好学习等,探究其在组合约束任务中的表现。
  3. 实验结果表明,监督微调在控制偏见的同时保持了较高的文本质量,而基于偏好的学习方法在处理组合约束方面存在局限性。

📝 摘要(中文)

大型语言模型(LLMs)即使在职业中性的上下文中,仍然会产生带有性别刻板印象的语言,这反映了深层的社会偏见。为了解决这个问题,之前的工作提出了提示工程、约束解码、后处理和基于微调的对齐方法。然而,这些方法的相对有效性和学习动态仍然知之甚少。本文对六种偏见缓解控制技术进行了比较分析:仅提示、生成-过滤、基于DFA的Ctrl-G解码、监督微调(SFT)、直接偏好优化(DPO)和迭代零空间投影(INLP)。我们在一个组合约束任务上评估了每种方法。该任务要求为每个源自Winogender的20个职业生成包含至少一个主动描述符和一个公共描述符的句子。我们通过约束依从性、词汇多样性和流畅性评估来量化控制强度和自然性之间的权衡。结果表明,SFT实现了99.87% +- 0.15%的依从性和高词汇多样性,而DPO尽管具有相似的训练稳定性,但失败了,依从性仅为4.53% +- 0.82%。Ctrl-G保证了完全的依从性,但代价是严重降低了流畅性和多样性。基于偏好的学习从根本上不同:它无法满足组合约束,因为二元偏好信号编码的是排序,而不是逻辑合取。只有显式的正向监督才能缓解组合偏见;基于偏好的对齐无法推广逻辑结构,突显了偏好学习的局限性以及显式监督对于公平和流畅的受控生成是必要的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在生成文本时存在的组合偏见问题,具体表现为在描述特定职业时,模型倾向于使用带有性别刻板印象的词汇。现有方法,如提示工程和约束解码,在控制偏见的同时,往往会牺牲文本的流畅性和多样性。偏好学习方法在处理组合约束时效果不佳,无法保证生成的文本同时满足多个属性要求。

核心思路:论文的核心思路是通过对比分析不同的偏见缓解技术,揭示它们在控制偏见和保持文本质量之间的权衡关系。特别关注监督微调和偏好学习这两种方法,探究它们在处理组合约束任务时的表现差异。论文认为,显式的正向监督是缓解组合偏见的关键,而基于偏好的学习方法由于其固有的局限性,无法有效地推广逻辑结构。

技术框架:论文采用对比实验的方法,评估六种偏见缓解技术:仅提示、生成-过滤、基于DFA的Ctrl-G解码、监督微调(SFT)、直接偏好优化(DPO)和迭代零空间投影(INLP)。这些方法被应用于一个组合约束任务,该任务要求为每个源自Winogender的20个职业生成包含至少一个主动描述符和一个公共描述符的句子。通过评估约束依从性、词汇多样性和流畅性,量化每种方法的性能。

关键创新:论文的关键创新在于揭示了监督微调在处理组合偏见方面的优势,以及偏好学习在处理此类问题时的局限性。通过对比实验,证明了显式的正向监督对于缓解组合偏见是必要的,而基于偏好的学习方法由于其固有的排序性质,无法有效地推广逻辑结构。

关键设计:论文的关键设计包括:1) 使用Winogender数据集构建组合约束任务,该任务要求生成的文本同时满足多个属性要求。2) 采用多种评估指标,包括约束依从性、词汇多样性和流畅性,全面评估每种方法的性能。3) 对比分析监督微调和偏好学习这两种方法的训练过程和结果,揭示它们在处理组合偏见方面的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,监督微调(SFT)在组合约束任务中表现最佳,实现了99.87% +- 0.15%的约束依从性,同时保持了较高的词汇多样性。相比之下,直接偏好优化(DPO)的约束依从性仅为4.53% +- 0.82%,表明其在处理组合约束方面存在局限性。Ctrl-G虽然保证了完全的约束依从性,但牺牲了文本的流畅性和多样性。

🎯 应用场景

该研究成果可应用于各种需要生成无偏见文本的场景,例如招聘广告、新闻报道和教育材料。通过采用合适的偏见缓解技术,可以提高生成文本的公平性和客观性,减少社会偏见的传播。未来的研究可以探索更有效的监督学习方法,以及如何将这些方法应用于更复杂的组合约束任务。

📄 摘要(原文)

Large Language Models (LLMs) still produce gender-stereotyped language even in occupation-neutral contexts that reflect deep societal biases (Rudinger et al., 2018). To address this, prior work has proposed prompting, constrained decoding (Dathathri et al., 2020; Zhou et al., 2024), post-processing, and fine-tuning-based alignment (Rafailov et al., 2023; Ravfogel et al., 2022). However, the comparative efficacy and learning dynamics remain little understood. We report a comparative analysis of six control techniques for bias mitigation: prompt-only, generate-and-filter, DFA-based Ctrl-G decoding, Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Iterative Nullspace Projection (INLP). We evaluate each method on a compositional constraint task. This task requires generating sentences that contain at least one agentic and one communal descriptor for each of the twenty Winogender-derived occupations. We quantify trade-offs between control strength and naturalness with evaluations of constraint compliance, lexical diversity, and fluency. Our results reveal key contrasts among the methods: SFT achieves 99.87 +- 0.15% compliance and high lexical diversity, while DPO, despite similar training stability, fails at 4.53 +- 0.82%. Ctrl-G guarantees perfect compliance, but at the cost of severely reduced fluency and diversity. Preference-based learning fundamentally differs: it cannot satisfy compositional constraints, as binary preference signals encode ranking, not logical conjunctions. Only explicit positive supervision enables mitigation of compositional biases; preference-based alignment fails to generalize logical structures, underscoring the limitations of preference learning and the necessity of explicit supervision for fair and fluent controlled generation.