Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization
作者: Jiangyu Chen, Banyi
分类: cs.AI, cs.LG
发布日期: 2026-06-01
💡 一句话要点
提出证据门控LLM先验的多目标贝叶斯优化方法,提升黑盒优化中LLM建议的可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多目标优化 贝叶斯优化 大型语言模型 专家先验 信誉市场
📋 核心要点
- 现有方法在多目标贝叶斯优化中盲目信任LLM先验,导致建议与目标值不校准,影响优化效果。
- 提出一种目标导向的信誉市场机制,在线更新专家权重,并引入解耦的反事实门,灵活使用或避免LLM先验。
- 实验表明,动态目标导向校准提高了鲁棒性,但原始LLM置信度并非总有益,边际选择应具备获取感知能力。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用作黑盒优化的启发式顾问,但它们的建议和自我报告的置信度不一定与下游目标值校准。在多目标贝叶斯优化中,这个问题变得更加突出,因为不同的目标可能需要不同的专家知识,并且LLM专家可能对一个目标有用,但对另一个目标具有误导性。我们研究如何在离散多目标贝叶斯优化中使用LLM生成的专家先验,而不盲目信任它们。我们提出了一种目标导向的信誉市场机制,该机制将每个专家-目标对视为可证伪的先验来源。专家权重根据观察到的目标反馈在线更新,随时间衰减,并由市场层面的信任度控制。然后,我们引入了一个解耦的反事实门,可以使用没有置信度的LLM先验,可以使用有置信度的LLM先验,或者完全避免使用LLM先验。在受控的合成压力测试和三个使用QwenFlash生成的专家先验的分子优化基准测试中,我们发现动态目标导向校准提高了相对于固定LLM先验的鲁棒性。然而,原始LLM置信度并没有可靠地带来好处:在ESOL上,置信度与预测误差呈正相关;在FreeSolv上,置信度可能会有所帮助;在Lipophilicity上,忽略置信度仍然是最强的。我们固定的三臂反事实门在ESOL和FreeSolv上优于第一个反事实变体,而尝试的边际投资组合暴露了一个有用的负面结果:边际选择应该是获取感知的,而不是仅基于一步先验误差。
🔬 方法详解
问题定义:论文旨在解决多目标贝叶斯优化中,如何有效利用LLM作为专家先验知识的问题。现有方法通常直接信任LLM的建议,但LLM的建议和置信度与实际目标值的校准程度不高,尤其是在不同目标需要不同专业知识时,LLM的建议可能具有误导性。因此,如何在不盲目信任LLM的情况下,利用其提供的先验知识,是本文要解决的核心问题。
核心思路:论文的核心思路是将每个LLM专家-目标对视为一个可证伪的先验来源,并建立一个信誉市场机制。通过观察目标函数的反馈,在线更新每个专家在特定目标上的权重,并引入一个反事实门来决定是否使用LLM提供的先验知识。这种方法允许系统根据LLM的实际表现动态调整其信任度,从而提高优化的鲁棒性。
技术框架:整体框架包含以下几个主要模块:1) LLM先验生成:使用LLM生成候选解的建议,并提供相应的置信度。2) 信誉市场:为每个专家-目标对维护一个权重,该权重根据观察到的目标函数反馈进行更新。3) 反事实门:根据信誉市场的权重,决定是否使用LLM提供的先验知识。反事实门包含三个选项:使用没有置信度的LLM先验,使用有置信度的LLM先验,或者完全避免使用LLM先验。4) 贝叶斯优化:使用更新后的先验知识进行贝叶斯优化,选择下一个要评估的候选解。
关键创新:论文的关键创新在于:1) 目标导向的信誉市场机制:为每个专家-目标对维护独立的权重,允许系统根据LLM在不同目标上的表现进行差异化信任。2) 解耦的反事实门:提供多种使用LLM先验的方式,允许系统根据LLM的置信度和信誉动态选择最佳策略。3) 获取感知的边际选择:强调边际选择应该考虑获取函数,而不仅仅是先验误差。
关键设计:信誉市场使用指数衰减来更新专家权重,以适应LLM知识的变化。反事实门使用一个三臂bandit策略来选择使用LLM先验的方式。论文还探讨了不同的边际选择策略,并发现获取感知的边际选择能够提高优化性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,动态目标导向校准提高了相对于固定LLM先验的鲁棒性。在ESOL数据集上,原始LLM置信度与预测误差呈正相关,表明盲目信任LLM的置信度可能导致性能下降。在FreeSolv数据集上,置信度可能会有所帮助。在Lipophilicity数据集上,忽略置信度仍然是最强的。固定的三臂反事实门在ESOL和FreeSolv上优于第一个反事实变体。
🎯 应用场景
该研究成果可广泛应用于黑盒优化领域,尤其是在多目标优化问题中,例如药物发现、材料设计、超参数优化等。通过利用LLM的知识,并结合信誉市场和反事实门机制,可以更有效地探索搜索空间,找到满足多个目标的优化解。该方法具有很高的实际应用价值,可以加速新材料和新产品的研发过程。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as heuristic advisors for black-box optimization, yet their suggestions and self-reported confidence are not necessarily calibrated to downstream objective values. This issue becomes more pronounced in multi-objective Bayesian optimization, where different objectives may require different expert knowledge and where an LLM expert can be useful for one objective but misleading for another. We study how to use LLM-generated expert priors in discrete multi-objective Bayesian optimization without blindly trusting them. We propose an objective-wise reputation-market mechanism that treats each expert-objective pair as a falsifiable prior source. Expert weights are updated online from observed objective feedback, discounted over time, and gated by market-level trust. We then introduce a decoupled counterfactual gate that can use the LLM prior without confidence, use it with confidence, or abstain from the LLM prior entirely. Across controlled synthetic stress tests and three molecule optimization benchmarks with \qwenflash{}-generated expert priors, we find that dynamic objective-wise calibration improves robustness over fixed LLM priors. However, raw LLM confidence is not reliably beneficial: on ESOL, confidence is positively correlated with prediction error; on FreeSolv, confidence can help; and on Lipophilicity, ignoring confidence remains strongest. Our fixed three-arm counterfactual gate improves over the first counterfactual variant on ESOL and FreeSolv, while an attempted margin portfolio exposes a useful negative result: margin selection should be acquisition-aware rather than based only on one-step prior error.