Mitigating LLM biases toward spurious social contexts using direct preference optimization
作者: Hyunji Nam, Dorottya Demszky
分类: cs.AI, cs.CL
发布日期: 2026-04-06
💡 一句话要点
提出Debiasing-DPO,缓解LLM对虚假社会上下文的偏见,提升教育评估公平性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 大型语言模型 偏差缓解 直接偏好优化 自监督学习 教育评估
📋 核心要点
- 现有LLM易受虚假上下文信息影响,导致决策偏差,尤其是在教育评估等高风险场景中。
- 论文提出Debiasing-DPO方法,通过自监督学习消除模型对虚假上下文的依赖,提升鲁棒性。
- 实验表明,Debiasing-DPO在Llama和Qwen模型上显著降低了偏差(84%),并提高了预测准确性(52%)。
📝 摘要(中文)
大型语言模型(LLM)越来越多地用于高风险决策,但它们对虚假上下文信息的敏感性可能引入有害偏见。当模型被用于评估教师教学质量等任务时,这是一个关键问题,因为有偏见的评估会影响教师的职业发展。我们使用美国课堂记录(NCTE)的最大公开数据集,结合专家评分标准,研究了模型对虚假社会上下文的鲁棒性。评估了七个前沿和开源模型在七类虚假上下文(包括教师经验、教育水平、人口统计学身份和诱导奉承的框架)下的表现,发现无关的上下文信息可以使模型预测在7分制量表上移动高达1.48分,更大的模型有时表现出更大的敏感性,尽管其预测准确性更高。使用提示和标准直接偏好优化(DPO)的缓解措施被证明在很大程度上是不够的。我们提出了一种自监督训练方法Debiasing-DPO,它将仅从查询生成的neutral推理与模型在查询和附加虚假上下文下生成的有偏推理配对。我们进一步将此目标与ground-truth标签上的监督微调相结合,以防止预测准确性的损失。应用于Llama 3B和8B以及Qwen 3B和7B Instruct模型,Debiasing-DPO平均降低了84%的偏差,并提高了52%的预测准确性。我们在教育案例研究中的发现表明,对虚假上下文的鲁棒性不是模型扩展的自然副产品,并且我们提出的方法可以在基于提示的预测任务中产生准确性和鲁棒性的显着提高。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在教育评估等任务中,对虚假社会上下文信息过于敏感,导致评估结果产生偏差的问题。现有方法,如提示工程和标准直接偏好优化(DPO),无法有效缓解这种偏差,且模型规模增大反而可能加剧该问题。
核心思路:论文的核心思路是利用自监督学习,让模型学习区分仅基于问题本身的“中性”推理和受到虚假上下文影响的“有偏”推理,从而减少模型对虚假信息的依赖。通过对比这两种推理结果,模型能够更好地识别并忽略无关的上下文信息。
技术框架:Debiasing-DPO方法包含以下主要步骤:1) 使用原始查询生成“中性”推理;2) 使用包含虚假上下文的查询生成“有偏”推理;3) 使用DPO目标函数,训练模型偏好“中性”推理,降低“有偏”推理的权重;4) 结合监督微调,利用ground-truth标签优化模型,防止预测准确率下降。
关键创新:Debiasing-DPO的关键创新在于其自监督的训练方式,它不需要额外的人工标注数据,而是通过模型自身生成的“中性”和“有偏”推理进行对比学习,从而有效地消除偏差。与传统的DPO方法相比,Debiasing-DPO更侧重于消除模型对虚假上下文的依赖,而非简单地优化预测结果。
关键设计:Debiasing-DPO的关键设计包括:1) 使用DPO损失函数,鼓励模型偏好“中性”推理;2) 结合监督微调,平衡偏差消除和预测准确率;3) 在训练过程中,需要仔细选择虚假上下文的类型和强度,以确保模型能够有效地学习到区分虚假信息的能力。
📊 实验亮点
实验结果表明,Debiasing-DPO在Llama 3B/8B和Qwen 3B/7B Instruct模型上取得了显著的性能提升。与基线方法相比,Debiasing-DPO平均降低了84%的偏差,同时提高了52%的预测准确率。这些结果表明,该方法能够有效地缓解LLM对虚假上下文的偏见,并提升模型的整体性能。
🎯 应用场景
该研究成果可应用于教育评估、招聘筛选、信贷审批等多个领域,提升AI决策的公平性和可靠性。通过降低模型对虚假社会上下文的敏感性,可以避免歧视性结果,保障弱势群体的权益。未来,该方法有望推广到更广泛的自然语言处理任务中,构建更加公正、透明的AI系统。
📄 摘要(原文)
LLMs are increasingly used for high-stakes decision-making, yet their sensitivity to spurious contextual information can introduce harmful biases. This is a critical concern when models are deployed for tasks like evaluating teachers' instructional quality, where biased assessment can affect teachers' professional development and career trajectories. We investigate model robustness to spurious social contexts using the largest publicly available dataset of U.S. classroom transcripts (NCTE) paired with expert rubric scores. Evaluating seven frontier and open-weight models across seven categories of spurious contexts -- including teacher experience, education level, demographic identity, and sycophancy-inducing framings -- we find that irrelevant contextual information can shift model predictions by up to 1.48 points on a 7-point scale, with larger models sometimes exhibiting greater sensitivity despite higher predictive accuracy. Mitigations using prompts and standard direct preference optimization (DPO) prove largely insufficient. We propose Debiasing-DPO,, a self-supervised training method that pairs neutral reasoning generated from the query alone, with the model's biased reasoning generated with both the query and additional spurious context. We further combine this objective with supervised fine-tuning on ground-truth labels to prevent losses in predictive accuracy. Applied to Llama 3B \& 8B and Qwen 3B \& 7B Instruct models, Debiasing-DPO reduces bias by 84\% and improves predictive accuracy by 52\% on average. Our findings from the educational case study highlight that robustness to spurious context is not a natural byproduct of model scaling and that our proposed method can yield substantial gains in both accuracy and robustness for prompt-based prediction tasks.