Calibration-Gated LLM Pseudo-Observations for Online Contextual Bandits

作者: Maksim Pershin, Ivan Golovanov, Pavel Baltabaev, Natalia Trankova

分类: cs.LG, cs.AI

发布日期: 2026-04-16

💡 一句话要点

提出校准门控LLM伪观测，解决在线上下文Bandit算法的冷启动问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 上下文Bandit算法 冷启动问题 大型语言模型 伪观测 校准门控

📋 核心要点

上下文Bandit算法在冷启动阶段因数据不足，难以区分优劣臂，导致高遗憾值。
利用大型语言模型（LLM）预测未选择臂的counterfactual奖励，作为伪观测注入学习器，辅助决策。
通过校准门控机制动态调整LLM伪观测的权重，根据LLM预测准确性自适应地控制其影响。

📝 摘要（中文）

上下文Bandit算法在冷启动阶段面临高遗憾值，因为学习器缺乏足够的数据来区分好坏臂。我们提出使用LLM伪观测来增强Disjoint LinUCB算法：在每一轮之后，大型语言模型预测未选择臂的counterfactual奖励，并将这些预测作为加权伪观测注入到学习器中。注入权重由校准门控衰减策略控制，该策略通过指数移动平均跟踪LLM在已选择臂上的预测准确性；高校准误差会抑制LLM的影响，而准确的预测在关键的早期轮次中会获得更高的权重。我们在两个上下文Bandit环境（UCI Mushroom和MIND-small）上进行了评估，发现当配备特定任务的prompt时，LLM伪观测相对于纯LinUCB算法，在MIND上将累积遗憾值降低了19%。然而，通用的counterfactual prompt框架增加了两个环境的遗憾值，表明prompt设计是主要因素，比衰减策略或校准门控参数的选择更重要。我们分析了校准门控在小预测误差域中的失效模式，并为控制伪观测权重的偏差-方差权衡提供了理论依据。

🔬 方法详解

问题定义：在线上下文Bandit算法的冷启动问题，即在初始阶段，由于缺乏足够的交互数据，算法难以准确评估各个臂的潜在奖励，导致探索不足和较高的累积遗憾值。现有方法在冷启动阶段表现不佳，需要更有效的探索策略。

核心思路：利用大型语言模型（LLM）的先验知识，为未选择的臂生成伪观测数据，从而在冷启动阶段为学习器提供额外的信息。通过LLM对未选择臂的奖励进行预测，并将这些预测作为伪观测加入到训练数据中，加速学习过程。

技术框架：该方法基于Disjoint LinUCB算法，并引入LLM伪观测模块。整体流程如下：1) 在每一轮，LinUCB选择一个臂进行交互；2) LLM根据上下文预测所有未选择臂的counterfactual奖励；3) 使用校准门控机制计算LLM伪观测的权重；4) 将加权的LLM伪观测加入到LinUCB的学习数据中，更新模型参数。

关键创新：校准门控机制是关键创新点。它通过跟踪LLM在已选择臂上的预测准确性，动态调整LLM伪观测的权重。当LLM的预测准确性较高时，赋予其更高的权重，反之则降低权重，从而避免LLM的不准确预测对学习过程产生负面影响。这种自适应的权重调整机制能够更好地利用LLM的先验知识，同时降低风险。

关键设计：校准门控机制的核心在于指数移动平均（EMA）的校准误差跟踪。具体来说，EMA用于估计LLM在已选择臂上的预测误差。基于该误差，通过一个衰减函数来计算LLM伪观测的权重。此外，prompt的设计至关重要，需要针对特定任务进行优化，以确保LLM能够生成高质量的伪观测数据。论文中也提到，通用的counterfactual prompt反而会增加 regret。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在MIND-small数据集上，使用特定任务prompt的LLM伪观测可以将累积遗憾值降低19%，显著优于纯LinUCB算法。同时，实验也强调了prompt设计的重要性，通用的counterfactual prompt反而会增加遗憾值。校准门控机制在小预测误差域中的失效模式也得到了分析。

🎯 应用场景

该研究成果可应用于各种在线推荐系统、广告投放、个性化医疗等领域。通过利用LLM的先验知识，可以有效缓解冷启动问题，提高系统的推荐效果和用户满意度。尤其是在数据稀疏或用户行为难以预测的场景下，该方法具有重要的应用价值。

📄 摘要（原文）

Contextual bandit algorithms suffer from high regret during cold-start, when the learner has insufficient data to distinguish good arms from bad. We propose augmenting Disjoint LinUCB with LLM pseudo-observations: after each round, a large language model predicts counterfactual rewards for the unplayed arms, and these predictions are injected into the learner as weighted pseudo-observations. The injection weight is controlled by a calibration-gated decay schedule that tracks the LLM's prediction accuracy on played arms via an exponential moving average; high calibration error suppresses the LLM's influence, while accurate predictions receive higher weight during the critical early rounds. We evaluate on two contextual bandit environments - UCI Mushroom (2-arm, asymmetric rewards) and MIND-small (5-arm news recommendation) - and find that when equipped with a task-specific prompt, LLM pseudo-observations reduce cumulative regret by 19% on MIND relative to pure LinUCB. However, generic counterfactual prompt framing increases regret on both environments, demonstrating that prompt design is the dominant factor, more important than the choice of decay schedule or calibration gating parameters. We analyze the failure modes of calibration gating on domains with small prediction errors and provide a theoretical motivation for the bias-variance trade-off governing pseudo-observation weight.

Calibration-Gated LLM Pseudo-Observations for Online Contextual Bandits

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理