Enabling Fine-Grained Operating Points for Black-Box LLMs

📄 arXiv: 2510.17727v2 📥 PDF

作者: Ege Beyazit, KL Navaneet, Prashant Mathur, Roi Blanco, Vidit Bansal, Karim Bouyarmane

分类: cs.LG

发布日期: 2025-10-20 (更新: 2025-10-21)

备注: Under review at ICLR 2026. 36 pages, 17 figures


💡 一句话要点

针对黑盒LLM,提出提升操作粒度且不损失性能的有效方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 黑盒LLM 操作粒度 提示工程 不确定性估计 分类器 决策优化 概率校准

📋 核心要点

  1. 黑盒LLM在决策应用中受限于数值输出基数低,难以满足精度等约束条件。
  2. 通过分析LLM输出偏差,设计方法提升操作粒度,同时保持或提升性能。
  3. 实验表明,该方法在多个数据集和LLM上优于现有提示工程和不确定性估计方法。

📝 摘要(中文)

黑盒大型语言模型(LLM)为其他机器学习方法提供了实用且易于访问的替代方案,因为它们只需要最少的标记数据和机器学习专业知识,即可为各种决策问题开发解决方案。然而,对于需要在特定指标上具有约束的应用(例如,精度≥95%),由于其数值输出基数较低,使用黑盒LLM进行决策仍然是不利的。这导致对其操作点的控制有限,从而妨碍了对其决策行为的细粒度调整。在本文中,我们研究了使用黑盒LLM作为分类器,重点在于有效地提高其操作粒度而不损失性能。具体来说,我们首先研究了其低基数数值输出背后的原因,并表明它们倾向于生成四舍五入但信息丰富的口头概率。然后,我们尝试了标准提示工程、不确定性估计和置信度引出技术,并观察到它们不能有效地提高操作粒度,同时又不牺牲性能或增加推理成本。最后,我们提出了有效的方法来显著增加可用操作点的数量和多样性。我们提出的方法提供了更细粒度的操作点,并在11个数据集和3个LLM上实现了与基准方法相当或更好的性能。

🔬 方法详解

问题定义:黑盒LLM在作为分类器使用时,其输出的数值概率基数较低,导致无法进行细粒度的操作点调整。例如,当需要满足特定精度要求时,无法精确控制LLM的决策行为。现有方法,如提示工程、不确定性估计等,要么无法有效提升操作粒度,要么会牺牲性能或增加推理成本。

核心思路:论文的核心思路是通过分析LLM输出的偏差,即LLM倾向于生成rounded但informative的verbalized probabilities,并利用这些信息来设计更有效的操作点调整方法。核心在于提升数值输出的多样性,从而实现更精细的控制。

技术框架:论文首先分析了LLM输出的数值概率分布,然后尝试了多种标准方法(提示工程、不确定性估计、置信度引出)来提升操作粒度。在此基础上,提出了新的方法来增加操作点的数量和多样性。整个流程包括:1) 分析LLM输出偏差;2) 评估现有方法;3) 提出并验证新方法。

关键创新:最重要的技术创新在于提出了能够有效增加黑盒LLM操作点数量和多样性的方法,而无需牺牲性能或增加推理成本。与现有方法相比,该方法更专注于利用LLM固有的输出偏差,并在此基础上进行优化。

关键设计:论文中提出的具体方法细节未在摘要中详细说明,因此无法给出关键参数设置、损失函数、网络结构等技术细节。具体实现细节需要在论文正文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在11个数据集和3个LLM上实现了与基准方法相当或更好的性能。该方法能够提供更细粒度的操作点,从而更好地满足特定业务需求。具体的性能提升幅度需要在论文正文中查找。

🎯 应用场景

该研究成果可应用于各种需要精确控制决策行为的场景,例如金融风控、医疗诊断、安全检测等。通过提升黑盒LLM的操作粒度,可以更好地满足特定业务需求,提高决策的准确性和可靠性。该研究还有助于推动黑盒LLM在更多实际场景中的应用。

📄 摘要(原文)

Black-box Large Language Models (LLMs) provide practical and accessible alternatives to other machine learning methods, as they require minimal labeled data and machine learning expertise to develop solutions for various decision making problems. However, for applications that need operating with constraints on specific metrics (e.g., precision $\geq$ 95%), decision making with black-box LLMs remains unfavorable, due to their low numerical output cardinalities. This results in limited control over their operating points, preventing fine-grained adjustment of their decision making behavior. In this paper, we study using black-box LLMs as classifiers, focusing on efficiently improving their operational granularity without performance loss. Specifically, we first investigate the reasons behind their low-cardinality numerical outputs and show that they are biased towards generating rounded but informative verbalized probabilities. Then, we experiment with standard prompt engineering, uncertainty estimation and confidence elicitation techniques, and observe that they do not effectively improve operational granularity without sacrificing performance or increasing inference cost. Finally, we propose efficient approaches to significantly increase the number and diversity of available operating points. Our proposed approaches provide finer-grained operating points and achieve comparable to or better performance than the benchmark methods across 11 datasets and 3 LLMs.