Online Learning and Equilibrium Computation with Ranking Feedback

作者: Mingyang Liu, Yongshan Chen, Zhiyuan Fan, Gabriele Farina, Asuman Ozdaglar, Kaiqing Zhang

分类: cs.LG, cs.CL, cs.GT

发布日期: 2026-03-19

💡 一句话要点

针对排序反馈的在线学习与均衡计算，提出变分效用下的次线性后悔算法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 在线学习 排序反馈 后悔最小化 均衡计算 粗略相关均衡

📋 核心要点

现有在线学习算法依赖数值效用反馈，但在人机交互或隐私受限场景中难以应用。
针对排序反馈的在线学习，设计算法以实现次线性后悔，并分析瞬时效用和时间平均效用下的可行性。
在效用序列具有次线性总变分的假设下，算法在大型语言模型路由任务中表现出有效性。

📝 摘要（中文）

本文研究了一种在线学习模型，其中学习者在每个时间步仅观察到一组提议动作的排序。考虑两种排序机制：由当前时间步的瞬时效用引起的排序，以及由当前时间步之前的时间平均效用引起的排序，分别在全信息和bandit反馈设置下进行研究。结果表明，在一般情况下，使用瞬时效用排序反馈无法实现次线性后悔。此外，当排序模型相对确定时（即在温度足够低的Plackett-Luce模型下），使用时间平均效用排序反馈也无法实现次线性后悔。因此，本文开发了新的算法，在效用序列具有次线性总变分的附加假设下，实现了次线性后悔。值得注意的是，对于全信息时间平均效用排序反馈，可以移除此附加假设。因此，当正规博弈中的所有参与者都遵循本文的算法时，重复博弈会产生近似的粗略相关均衡。最后，本文还在在线大型语言模型路由任务中证明了算法的有效性。

🔬 方法详解

问题定义：论文旨在解决在线学习中，当环境仅提供动作排序反馈而非数值效用反馈时，如何设计算法以最小化后悔值的问题。现有方法通常依赖于数值效用反馈，这在许多实际场景中是不可行的，例如人机交互和隐私保护等。此外，即使有数值效用，获取这些数值的成本也可能很高。因此，如何仅通过排序反馈进行有效的在线学习是一个重要的挑战。

核心思路：论文的核心思路是，尽管直接的数值效用不可用，但动作的排序信息仍然蕴含着关于效用的相对信息。论文通过分析不同排序机制（瞬时效用和时间平均效用）下的后悔界，并结合效用序列的变分特性，设计相应的在线学习算法。对于时间平均效用排序反馈，论文证明了在全信息情况下可以移除对效用序列变分的假设。

技术框架：论文的整体框架是针对不同的反馈设置（全信息 vs. bandit）和排序机制（瞬时效用 vs. 时间平均效用），分别分析后悔界，并设计相应的在线学习算法。具体来说，对于瞬时效用排序反馈，论文证明了在一般情况下无法实现次线性后悔。对于时间平均效用排序反馈，论文在效用序列具有次线性总变分的假设下，提出了可以实现次线性后悔的算法。在全信息时间平均效用排序反馈下，该假设可以被移除。

关键创新：论文的关键创新在于针对排序反馈的在线学习问题，提出了新的算法，并在理论上分析了这些算法的后悔界。特别是在全信息时间平均效用排序反馈下，论文证明了可以移除对效用序列变分的假设，这是一个重要的理论突破。此外，论文还证明了当所有玩家都遵循论文提出的算法时，重复博弈可以达到近似的粗略相关均衡。

关键设计：论文的关键设计包括：(1) 针对不同的反馈设置和排序机制，设计不同的在线学习算法；(2) 利用效用序列的变分特性来约束后悔界；(3) 在全信息时间平均效用排序反馈下，通过巧妙的分析，移除了对效用序列变分的假设。具体的算法细节和参数设置在论文中进行了详细描述。

📊 实验亮点

论文证明了在一般情况下，使用瞬时效用排序反馈无法实现次线性后悔。在效用序列具有次线性总变分的假设下，论文提出的算法实现了次线性后悔。特别是在全信息时间平均效用排序反馈下，可以移除该假设。实验结果表明，该算法在在线大型语言模型路由任务中表现出良好的性能。

🎯 应用场景

该研究成果可应用于人机交互、推荐系统、在线广告等领域。例如，在推荐系统中，用户可能更愿意提供物品的排序而非具体的评分。该算法可以利用用户的排序反馈来优化推荐策略。此外，该研究还可应用于博弈论，用于计算近似的粗略相关均衡。

📄 摘要（原文）

Online learning in arbitrary, and possibly adversarial, environments has been extensively studied in sequential decision-making, and it is closely connected to equilibrium computation in game theory. Most existing online learning algorithms rely on \emph{numeric} utility feedback from the environment, which may be unavailable in human-in-the-loop applications and/or may be restricted by privacy concerns. In this paper, we study an online learning model in which the learner only observes a \emph{ranking} over a set of proposed actions at each timestep. We consider two ranking mechanisms: rankings induced by the \emph{instantaneous} utility at the current timestep, and rankings induced by the \emph{time-average} utility up to the current timestep, under both \emph{full-information} and \emph{bandit} feedback settings. Using the standard external-regret metric, we show that sublinear regret is impossible with instantaneous-utility ranking feedback in general. Moreover, when the ranking model is relatively deterministic, \emph{i.e.}, under the Plackett-Luce model with a temperature that is sufficiently small, sublinear regret is also impossible with time-average utility ranking feedback. We then develop new algorithms that achieve sublinear regret under the additional assumption that the utility sequence has sublinear total variation. Notably, for full-information time-average utility ranking feedback, this additional assumption can be removed. As a consequence, when all players in a normal-form game follow our algorithms, repeated play yields an approximate coarse correlated equilibrium. We also demonstrate the effectiveness of our algorithms in an online large-language-model routing task.

Online Learning and Equilibrium Computation with Ranking Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理