Preference Learning with Response Time: Robust Losses and Guarantees

📄 arXiv: 2505.22820v2 📥 PDF

作者: Ayush Sawarni, Sahasrajit Sarmasarkar, Vasilis Syrgkanis

分类: cs.LG, cs.AI, econ.TH, stat.ML

发布日期: 2025-05-28 (更新: 2025-10-24)

备注: Accepted at NeurIPS 2025


💡 一句话要点

提出基于响应时间的偏好学习方法,提升奖励模型学习的样本效率与理论保证。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好学习 响应时间 奖励模型 Neyman正交 证据累积模型 样本效率 人机交互

📋 核心要点

  1. 现有偏好学习方法主要依赖二元选择数据,忽略了用户决策过程中的响应时间信息,导致样本效率低下。
  2. 论文提出利用响应时间信息增强偏好学习,基于证据累积漂移扩散模型,设计Neyman正交损失函数。
  3. 理论分析和实验结果表明,该方法能显著提高样本效率,并为线性及非参数奖励模型提供更好的收敛保证。

📝 摘要(中文)

本文研究了将响应时间数据整合到人类偏好学习框架中,以更有效地进行奖励模型提取。虽然二元偏好数据已成为微调基础模型、生成式AI系统和其他大规模模型的基础,但用户决策中固有的宝贵时间信息在很大程度上仍未被利用。我们提出了新的方法,将响应时间信息与二元选择数据结合起来,利用证据累积漂移扩散(EZ)模型,在该模型下,响应时间可以反映偏好强度。我们开发了Neyman正交损失函数,实现了奖励模型学习的oracle收敛速度,与预先知道每个查询的预期响应时间时所能达到的理论最优速度相匹配。我们的理论分析表明,对于线性奖励函数,传统的偏好学习的误差率与奖励幅度呈指数关系。相比之下,我们的响应时间增强方法将其降低到多项式缩放,代表了样本效率的显著提高。我们将这些保证扩展到非参数奖励函数空间,为更复杂、更真实的奖励模型建立了收敛特性。我们的大量实验验证了我们在图像偏好学习中的理论发现。

🔬 方法详解

问题定义:传统的偏好学习方法,例如基于二元选择数据的奖励模型学习,忽略了用户在做出选择时所花费的时间(响应时间)。响应时间蕴含了用户偏好强度的信息,而忽略这些信息会导致样本效率低下,尤其是在奖励幅度较大时,误差率会呈指数增长。因此,需要一种能够有效利用响应时间信息的偏好学习方法。

核心思路:论文的核心思路是利用响应时间作为用户偏好强度的指标,并将其整合到偏好学习的损失函数中。具体来说,论文假设用户的决策过程符合证据累积漂移扩散(EZ)模型,该模型将响应时间与偏好强度联系起来。通过建模响应时间,可以更准确地估计用户的真实偏好,从而提高奖励模型的学习效率。

技术框架:整体框架包括以下几个主要步骤:1) 收集用户对不同选项的二元偏好数据和响应时间数据;2) 使用EZ模型对响应时间进行建模,估计用户偏好强度;3) 设计Neyman正交损失函数,将偏好强度信息融入到损失函数中;4) 使用优化算法最小化损失函数,学习奖励模型。该框架可以应用于线性或非参数奖励函数空间。

关键创新:论文的关键创新在于提出了利用Neyman正交损失函数来整合响应时间信息。Neyman正交损失函数具有良好的理论性质,可以保证奖励模型学习的oracle收敛速度,即达到已知真实响应时间时的最优收敛速度。此外,该方法将误差率从指数级别降低到多项式级别,显著提高了样本效率。

关键设计:关键设计包括:1) 使用EZ模型对响应时间进行建模,具体参数需要根据实际数据进行估计;2) 设计Neyman正交损失函数,该损失函数需要满足正交性条件,以保证估计的无偏性;3) 选择合适的优化算法来最小化损失函数,例如梯度下降法或其变种。对于非参数奖励函数,可以使用核方法或神经网络等技术进行建模。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与传统的偏好学习方法相比,该方法在图像偏好学习任务中能够显著提高样本效率。理论分析表明,对于线性奖励函数,该方法可以将误差率从指数级别降低到多项式级别。此外,该方法还被扩展到非参数奖励函数空间,并验证了其在更复杂场景下的有效性。

🎯 应用场景

该研究成果可广泛应用于需要从人类反馈中学习奖励模型的场景,例如:机器人控制、推荐系统、对话系统、游戏AI等。通过利用响应时间信息,可以更有效地训练奖励模型,提高系统的性能和用户体验。尤其是在数据获取成本较高的情况下,该方法能够显著降低训练所需的样本数量。

📄 摘要(原文)

This paper investigates the integration of response time data into human preference learning frameworks for more effective reward model elicitation. While binary preference data has become fundamental in fine-tuning foundation models, generative AI systems, and other large-scale models, the valuable temporal information inherent in user decision-making remains largely unexploited. We propose novel methodologies to incorporate response time information alongside binary choice data, leveraging the Evidence Accumulation Drift Diffusion (EZ) model, under which response time is informative of the preference strength. We develop Neyman-orthogonal loss functions that achieve oracle convergence rates for reward model learning, matching the theoretical optimal rates that would be attained if the expected response times for each query were known a priori. Our theoretical analysis demonstrates that for linear reward functions, conventional preference learning suffers from error rates that scale exponentially with reward magnitude. In contrast, our response time-augmented approach reduces this to polynomial scaling, representing a significant improvement in sample efficiency. We extend these guarantees to non-parametric reward function spaces, establishing convergence properties for more complex, realistic reward models. Our extensive experiments validate our theoretical findings in the context of preference learning over images.