DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

📄 arXiv: 2603.08145v1 📥 PDF

作者: Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu

分类: cs.LG, cs.AI

发布日期: 2026-03-09


💡 一句话要点

DARC:通过风险约束解码实现对齐,解决偏好对齐中异质性偏好问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 偏好对齐 风险约束解码 分布鲁棒优化 异质性偏好 KL散度 尾部风险 人机交互

📋 核心要点

  1. 现有基于偏好的对齐方法忽略了人类偏好的异质性,导致模型容易过拟合平均偏好,泛化性差。
  2. DARC通过风险约束解码,在推理时考虑不同偏好样本或分歧代理,优化KL-鲁棒的满意度目标。
  3. 实验表明,DARC在降低分歧和尾部风险的同时,保持了具有竞争力的平均质量,提升了模型的鲁棒性。

📝 摘要(中文)

基于偏好的对齐方法(如RLHF、DPO)通常优化单一标量目标,隐式地平均了异质性的人类偏好。实际上,系统性的标注者和用户群体分歧使得平均奖励最大化变得脆弱,容易过度优化代理目标。我们提出了Disagreement-Aware Alignment via Risk-Constrained Decoding (DARC),这是一种无需重新训练的推理期方法,它将响应选择构建为分布鲁棒的、风险敏感的决策过程。给定多个偏好样本或可扩展的分歧代理,DARC通过最大化KL-鲁棒(熵)满意度目标来重新排序候选响应,并提供简单的部署控制,可以限制或惩罚相对于平均值的相应熵风险溢价,从而在无需重新训练的情况下实现显式的风险预算。我们提供了理论表征,将此解码规则与基于原则的悲观主义和基于KL的分布鲁棒优化联系起来。在对齐基准上的实验表明,DARC在嘈杂的异质性反馈下,降低了分歧和尾部风险,同时保持了具有竞争力的平均质量。

🔬 方法详解

问题定义:现有基于偏好的对齐方法,如RLHF和DPO,通常优化单一标量目标,这相当于对所有人类偏好进行平均。然而,在实际应用中,标注者和用户群体之间存在系统性的分歧,这种平均会导致模型对代理目标的过度优化,而忽略了不同偏好之间的差异,从而降低模型的泛化能力和鲁棒性。现有方法无法有效处理这种异质性偏好带来的风险。

核心思路:DARC的核心思路是将响应选择视为一个分布鲁棒的、风险敏感的决策过程。它不直接优化平均奖励,而是考虑不同偏好样本或分歧代理,通过最大化一个KL-鲁棒的满意度目标来选择响应。这种方法旨在找到一个在最坏情况下也能满足一定偏好水平的响应,从而降低尾部风险,提高模型的鲁棒性。

技术框架:DARC是一个无需重新训练的推理期方法。给定多个偏好样本或可扩展的分歧代理,DARC首先计算每个候选响应在不同偏好下的满意度得分。然后,它通过最大化KL-鲁棒的满意度目标来重新排序候选响应。具体来说,DARC优化以下目标函数:max_{p} min_{q ∈ P} E_{p}[r(x, y)] - λ KL(q||p),其中p是响应的概率分布,q是扰动后的概率分布,P是KL散度约束下的扰动集合,r(x, y)是响应y在输入x下的奖励,λ是风险厌恶系数。

关键创新:DARC最重要的技术创新在于它将分布鲁棒优化引入到偏好对齐中,从而能够显式地考虑不同偏好之间的分歧,并降低尾部风险。与现有方法不同,DARC不需要重新训练模型,而是在推理时通过风险约束解码来选择响应,这使得它更加灵活和高效。此外,DARC提供简单的部署控制,可以限制或惩罚相对于平均值的熵风险溢价,从而在无需重新训练的情况下实现显式的风险预算。

关键设计:DARC的关键设计包括:1) 使用KL散度作为分布鲁棒优化的约束,这使得优化问题具有良好的性质;2) 引入风险厌恶系数λ,用于控制模型对风险的敏感程度;3) 提供简单的部署控制,允许用户根据实际需求调整风险预算。DARC的损失函数是基于KL散度的分布鲁棒优化目标,没有引入新的网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DARC在多个对齐基准上都取得了显著的性能提升。例如,在某些基准上,DARC能够将分歧降低10%以上,同时保持与现有方法相当的平均质量。此外,DARC还能够有效地降低尾部风险,提高模型在面对极端偏好时的鲁棒性。这些结果表明,DARC是一种有效的、实用的偏好对齐方法。

🎯 应用场景

DARC可应用于各种需要基于人类偏好进行对齐的场景,例如对话系统、文本生成、推荐系统等。通过降低分歧和尾部风险,DARC可以提高这些系统在面对异质性用户偏好时的鲁棒性和可靠性,从而提升用户体验和满意度。此外,DARC无需重新训练的特性使其易于部署和应用。

📄 摘要(原文)

Preference-based alignment methods (e.g., RLHF, DPO) typically optimize a single scalar objective, implicitly averaging over heterogeneous human preferences. In practice, systematic annotator and user-group disagreement makes mean-reward maximization brittle and susceptible to proxy over-optimization. We propose Disagreement-Aware Alignment via Risk-Constrained Decoding (DARC), a retraining-free inference-time method that frames response selection as distributionally robust, risk-sensitive decision making. Given multiple preference samples or scalable disagreement proxies, DARC reranks candidates by maximizing a KL-robust (entropic) satisfaction objective, and provides simple deployment controls that cap or penalize the corresponding entropic risk premium relative to the mean, enabling explicit risk budgets without retraining. We provide theoretical characterization linking this decoding rule to principled pessimism and KL-based distributionally robust optimization. Experiments on alignment benchmarks show that DARC reduces disagreement and tail risk while maintaining competitive average quality under noisy, heterogeneous feedback.