Response Time Enhances Alignment with Heterogeneous Preferences
作者: Federico Echenique, Alireza Fallah, Baihe Huang, Michael I. Jordan
分类: cs.LG, cs.GT, econ.TH, stat.ML
发布日期: 2026-05-07
💡 一句话要点
引入响应时间信号以解决异构偏好下的LLM对齐偏差问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 人类反馈强化学习 偏好对齐 漂移扩散模型 异构偏好 统计估计
📋 核心要点
- 现有对齐方法假设标注者偏好同质,忽略了异构性导致的群体平均偏好不可识别问题,使得模型在处理多样化人类反馈时产生系统性偏差。
- 论文提出将响应时间作为辅助信号,结合漂移扩散模型(DDM)构建一致性估计器,通过捕捉决策过程中的动态信息来解耦并修正偏好偏差。
- 实验证明该方法在合成与真实数据集上均超越了传统基线,有效突破了仅依赖选择数据所导致的性能瓶颈,且无需额外的用户追踪。
📝 摘要(中文)
大语言模型(LLM)的对齐通常依赖于将汇总的反馈整合进单一奖励模型。然而,该方法假设所有标注者具有相同的偏好,忽略了现实中标注者偏好的高度异构性及匿名性。仅依赖二元选择数据会从根本上扭曲学习策略,导致真实的群体平均偏好无法识别。为克服这一局限,本文提出利用用户的“响应时间”这一辅助信号,恢复群体平均偏好的可识别性。通过将决策过程建模为漂移扩散模型(DDM),我们引入了一种针对异构偏好的新型一致性估计器,成功修正了仅基于选择标签产生的偏差。理论证明,即使在每位匿名标注者仅贡献单次选择的极端情况下,该估计器也能渐近收敛至真实的平均偏好。实验表明,该方法在合成及真实数据集上均显著优于传统基线,为无需用户标识或重复标注的数据收集提供了新范式。
🔬 方法详解
问题定义:现有LLM对齐依赖于二元选择数据(如A比B好),但当标注者群体偏好异构时,简单的聚合会导致“偏好混淆”,使得模型无法学习到真实的群体平均偏好,从而在对齐过程中产生不可消除的偏差。
核心思路:引入响应时间作为决策过程的观测变量。根据认知心理学中的漂移扩散模型(DDM),响应时间蕴含了标注者对选项确定性的信息,利用这一信号可以区分不同标注者的偏好强度,从而实现对异构偏好的有效解耦。
技术框架:该方法将每个标注决策建模为DDM过程,其中漂移率(Drift Rate)与标注者的偏好相关。通过联合建模选择结果与响应时间,构建似然函数,利用最大似然估计或矩估计方法推断出群体平均偏好参数。
关键创新:首次将响应时间引入LLM对齐框架,证明了在异构偏好下,仅有选择数据是不足以识别平均偏好的,而响应时间提供了必要的额外约束,实现了统计学上的一致性估计。
关键设计:核心在于DDM参数的估计,通过将响应时间分布与选择概率分布结合,构建了一个鲁棒的损失函数,该函数能够自动加权不同标注者的贡献,从而在无需用户ID的情况下实现对群体偏好的无偏估计。
🖼️ 关键图片
📊 实验亮点
实验结果显示,在存在显著偏好异构性的合成数据集上,传统方法因偏差导致性能停滞,而本文方法能渐近收敛至真实偏好。在真实世界数据集测试中,该方法在保持计算开销极低的前提下,显著提升了奖励模型的预测准确率,证明了响应时间作为“免费”辅助信号的巨大潜力。
🎯 应用场景
该技术可广泛应用于RLHF(基于人类反馈的强化学习)流程中,特别是在大规模众包标注场景下。它无需追踪用户身份即可提升对齐质量,降低了数据隐私合规成本,适用于需要处理高度多样化用户群体偏好的通用大模型及垂直领域模型对齐任务。
📄 摘要(原文)
Aligning large language models (LLMs) to human preferences typically relies on aggregating pooled feedback into a single reward model. However, this standard approach assumes that all labelers share the same underlying preferences, ignoring the fact that real-world labelers are highly heterogeneous and usually anonymous. Consequently, relying solely on binary choice data fundamentally distorts the learned policy, making the true population-average preference unidentifiable. To overcome this critical limitation, we demonstrate that augmenting preference datasets with a simple, secondary signal -- the user's response time -- can restore the identifiability of the population's average preference. By modeling each decision as a Drift-Diffusion Model (DDM), we introduce a novel, consistent estimator of heterogeneous preferences that successfully corrects the distortions of standard choice-only labels. We prove that our estimator asymptotically converges to the true average preference even in extreme cases where each anonymous labeler contributes only a single choice. Empirically, across both synthetic and real-world datasets, our method consistently outperforms standard baselines that otherwise fail and plateau at a bias floor. Because response times are essentially free to record and require zero user tracking or identification, our results bring promises and open up new opportunities for future data-collection pipelines to improve the social benefit without requiring user-level identifiers or repeated elicitations.