Online Pandora's Box for Contextual LLM Cascading
作者: Alexandre Belloni, Yan Chen, Yehua Wei
分类: cs.AI, cs.LG, econ.EM, stat.ML
发布日期: 2026-06-05
💡 一句话要点
提出在线上下文潘多拉盒子模型以优化LLM API选择
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 在线学习 决策优化 保留指数 上下文建模
📋 核心要点
- 现有的在线上下文潘多拉盒子模型在处理LLM API选择时存在反馈结构不够灵活的问题,难以有效利用输出信息。
- 本研究提出了一种新的在线上下文潘多拉盒子模型,通过直接建模保留指数来优化API查询和选择过程,提升决策效率。
- 实验结果表明,所提出的策略在多个周期内实现了维度相关的$ ilde O( ext{sqrt}(T))$累积遗憾,相较于传统方法有显著提升。
📝 摘要(中文)
本研究受到大语言模型(LLM)级联的启发,提出了一种在线上下文潘多拉盒子模型,用于自适应查询和选择LLM API。在每个周期中,决策者观察请求上下文,并面临两阶段决策问题。在查询阶段,决策者依次查询API,每次查询揭示生成的输出,并产生与输出相关的成本。在选择阶段,决策者从生成的输出中选择一个进行部署,并仅观察所部署输出的下游奖励。这种输出介导的反馈结构与经典的在线上下文潘多拉盒子模型不同,后者直接揭示奖励。我们直接建模保留指数,并开发了查询阶段的学习方法,结合了广义矩方法(GMM)类型的保留指数估计与UCB风格的置信界限。我们证明了在常规条件下,所提出的策略在T个周期内实现了维度相关的$ ilde O( ext{sqrt}(T))$累积遗憾。
🔬 方法详解
问题定义:本论文旨在解决在大语言模型级联中,如何有效查询和选择LLM API的问题。现有方法在反馈结构上存在局限,无法充分利用生成输出的信息,导致决策效率低下。
核心思路:论文提出了一种在线上下文潘多拉盒子模型,通过引入保留指数的直接建模,优化查询和选择过程。该设计旨在提高决策的灵活性和准确性。
技术框架:整体架构包括两个主要阶段:查询阶段和选择阶段。在查询阶段,决策者依次查询API,获取输出并计算相关成本;在选择阶段,决策者从生成的输出中选择一个进行部署,并观察其下游奖励。
关键创新:本研究的主要创新在于直接建模保留指数,而非估计完整的条件输出和成本分布。这一方法与经典的在线上下文潘多拉盒子模型有本质区别,能够更有效地利用输出信息。
关键设计:在参数设置上,采用了广义矩方法(GMM)来估计保留指数,并结合UCB风格的置信界限,以确保决策的可靠性和有效性。
📊 实验亮点
实验结果显示,所提出的在线上下文潘多拉盒子模型在多个周期内实现了维度相关的$ ilde O( ext{sqrt}(T))$累积遗憾,相较于传统方法,决策效率显著提升,验证了模型的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括智能客服、自动化内容生成和个性化推荐系统等。通过优化LLM API的选择过程,可以显著提升系统的响应速度和用户体验,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Motivated by Large Language Model (LLM) cascading, we propose an online contextual Pandora's Box model for adaptively querying and selecting LLM APIs. In each period, a decision-maker observes a request context and faces a two-phase decision problem. In the query phase, the decision-maker sequentially queries APIs, where each query reveals a generated output and the decision-maker incurs an (output-dependent) cost. In the selection phase, the decision-maker selects one of the generated outputs to deploy and observes only the downstream reward of the deployed output. This output-mediated feedback structure differs from classical online contextual Pandora's Box models, in which opening a box directly reveals its reward. Rather than estimating the full conditional output and cost distributions of each API, we directly model the reservation index and develop a learning approach for the query phase. Specifically, we impose a parametric structure on the contextual reservation index functions induced by the classical Weitzman's policy. Our policy combines generalized method of moments (GMM) type estimation of these reservation indices with UCB-style confidence bounds for both these indices and the shared output-level reward evaluator. Under regularity conditions, we prove that the resulting policy achieves dimension-dependent $\widetilde O(\sqrt T)$ cumulative regret over a horizon of $T$ periods.