Elicitation Matters: How Prompts and Query Protocols Shape LLM Surrogates under Sparse Observations

📄 arXiv: 2605.04764v1 📥 PDF

作者: Ge Lei, Samuel J. Cooper

分类: cs.CL

发布日期: 2026-05-06


💡 一句话要点

研究提示词和查询协议如何影响稀疏观测下LLM代理模型的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 代理模型 低数据优化 提示工程 查询协议 不确定性估计 贝叶斯优化

📋 核心要点

  1. 现有方法对LLM作为低数据优化代理模型时,其预测和不确定性的理解不足。
  2. 论文核心在于研究提示词和查询协议如何影响LLM代理模型的置信度,并提出不确定性对齐准则。
  3. 实验表明,结构化提示、查询方式和证据顺序都会显著影响LLM的预测和优化性能。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作低数据优化中的代理模型,但其面向优化器的预测及其不确定性仍然知之甚少。本文研究了在稀疏观测下从LLM中提取的代理置信度,表明它强烈依赖于提示文本和查询协议。我们引入了一种不确定性对齐准则,用于衡量模型不确定性是否跟踪样本一致函数之间的残余模糊性。通过受控的推理任务和贝叶斯优化研究,我们发现结构化提示充当有效的先验,POINTWISE和JOINT查询会诱导不同的置信度,并且顺序证据会导致非单调的、顺序敏感的置信度更新。这些影响改变了下游的获取决策和遗憾值,表明提示协议是LLM代理模型规范的一部分,而不是格式细节。

🔬 方法详解

问题定义:论文旨在解决在稀疏数据优化场景下,如何更有效地利用大型语言模型(LLM)作为代理模型的问题。现有方法通常将LLM视为黑盒,忽略了提示词和查询协议对LLM预测结果和不确定性的影响。这种忽略可能导致次优的优化决策,尤其是在数据稀缺的情况下。

核心思路:论文的核心思路是,LLM作为代理模型的性能不仅取决于其固有的知识,还受到提示词的设计和查询方式的强烈影响。通过精心设计的提示词和查询协议,可以引导LLM更好地表达其置信度,从而提高优化效率。论文还提出了“不确定性对齐准则”,用于衡量模型不确定性是否与真实函数之间的模糊性相符。

技术框架:论文的研究框架主要包括三个部分:1) 设计不同的提示词(如结构化提示)和查询协议(如POINTWISE和JOINT查询);2) 在受控的推理任务和贝叶斯优化研究中,评估这些提示词和查询协议对LLM预测结果和不确定性的影响;3) 使用“不确定性对齐准则”来量化LLM的不确定性表达能力。整体流程是:设计提示词和查询协议 -> LLM预测 -> 评估预测结果和不确定性 -> 分析提示词和查询协议的影响。

关键创新:论文最重要的创新点在于,它强调了提示词和查询协议在LLM代理模型中的重要性,并将其视为模型规范的一部分,而非简单的格式细节。此外,论文提出的“不确定性对齐准则”为评估LLM的不确定性表达能力提供了一种新的方法。

关键设计:论文的关键设计包括:1) 结构化提示的设计,旨在引导LLM更好地利用其先验知识;2) POINTWISE和JOINT查询协议的设计,用于研究不同查询方式对LLM置信度的影响;3) 贝叶斯优化实验的设计,用于评估不同提示词和查询协议对实际优化性能的影响。论文还详细描述了实验设置和评估指标,以确保结果的可重复性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,结构化提示可以作为有效的先验知识,提高LLM的预测准确性。POINTWISE和JOINT查询会诱导不同的置信度,影响优化决策。顺序证据会导致非单调的、顺序敏感的置信度更新。这些发现强调了提示词和查询协议在LLM代理模型中的重要性,并为优化LLM代理模型的性能提供了指导。

🎯 应用场景

该研究成果可应用于各种低数据优化场景,例如新材料发现、药物设计、超参数优化等。通过优化提示词和查询协议,可以更有效地利用LLM的知识,减少实验次数,加速优化过程。未来的研究可以探索更复杂的提示词设计和查询策略,以及将该方法应用于更大规模的优化问题。

📄 摘要(原文)

Large language models are increasingly used as surrogate models for low-data optimization, but their optimizer-facing prediction and its uncertainty remain poorly understood. We study the surrogate belief elicited from an LLM under sparse observations, showing that it depends strongly on prompt text and query protocol. We introduce an uncertainty-alignment criterion that measures whether model uncertainty tracks residual ambiguity among sample-consistent functions. Across controlled inference tasks and Bayesian optimization studies, we find that structural prompts act as effective priors, POINTWISE and JOINT querying induce different beliefs, and sequential evidence leads to non-monotonic, order-sensitive confidence updates. These effects change downstream acquisition decisions and regret, showing that elicitation protocol is part of the LLM surrogate specification, not a formatting detail.