Zero-Shot Confidence Estimation for Small LLMs: When Supervised Baselines Aren't Worth Training

📄 arXiv: 2605.02241v1 📥 PDF

作者: Luong N. Nguyen

分类: cs.AI, cs.CL, cs.ET

发布日期: 2026-05-04


💡 一句话要点

针对小LLM,提出零样本置信度估计方法,无需监督训练即可实现可靠的本地-云路由。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 置信度估计 小型语言模型 本地-云路由 平均token对数概率 检索条件自评估 分布外泛化 成本控制

📋 核心要点

  1. 现有方法依赖监督学习进行置信度估计,需要大量标注数据,成本高昂且泛化性差,难以适应分布外数据。
  2. 论文提出零样本置信度估计方法,利用平均token对数概率评估模型生成质量,无需训练数据,更具通用性。
  3. 实验表明,零样本方法在分布内性能与监督基线相当,在分布外性能显著优于监督基线,并提出了检索条件自评估方法进一步提升性能。

📝 摘要(中文)

本文研究了小型语言模型(LLM)评估自身正确性的可靠性问题。该研究旨在确定在没有监督训练数据的情况下,本地模型无法处理的查询是否可以通过本地-云路由进行升级。由于推理成本在大型语言模型(LLM)部署预算中占据主导地位,将大多数查询路由到廉价的本地模型,而将昂贵的云调用保留给困难情况,是一种日益常见的成本控制策略。本文比较了三种7-8B模型系列和两个数据集上的零样本置信度信号与RouteLLM风格的监督基线。平均token对数概率不需要训练数据,在分布内(AUROC 0.650-0.714 vs. 0.644-0.676)匹配或超过了监督基线,并且在分布外(0.717-0.833 vs. 0.512-0.564)显著优于它们,因为它衡量的是模型生成的属性,而不是查询分布。本文进一步提出了检索条件自评估,这是一种预生成信号,当相似度较高时选择性地注入检索到的知识,与裸自评估相比,AUROC提高了+0.069,延迟降低了3-10倍。在1000个标记示例上训练的监督基线从未超过零样本信号。作者发布了所有代码、数据和实验日志。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(LLM)在没有监督训练数据的情况下,如何可靠地估计自身答案正确性的问题。现有基于监督学习的置信度估计方法需要大量标注数据,训练成本高,且在分布外数据上的泛化能力较差。这些方法往往过度拟合训练数据的分布,难以适应真实应用场景中复杂多变的查询。

核心思路:论文的核心思路是利用语言模型自身的生成特性来评估置信度,而不是依赖外部的监督信号。具体来说,论文使用平均token对数概率作为置信度指标,认为模型生成的文本概率越高,则模型对答案的置信度越高。这种方法无需训练数据,可以直接应用于各种不同的模型和数据集。

技术框架:论文提出的方法主要包含两个阶段:1) 利用平均token对数概率进行零样本置信度估计;2) 提出检索条件自评估方法,在生成答案之前,根据查询与知识库的相似度,选择性地注入检索到的知识,以提高置信度。整体流程是:输入查询 -> 检索相关知识(可选) -> 模型生成答案 -> 计算平均token对数概率 -> 输出答案和置信度。

关键创新:论文最重要的技术创新点在于提出了零样本置信度估计方法,该方法无需训练数据,可以直接应用于各种不同的模型和数据集。与现有基于监督学习的方法相比,该方法更具通用性和泛化能力。此外,论文提出的检索条件自评估方法,通过选择性地注入检索到的知识,进一步提高了置信度。

关键设计:平均token对数概率的计算方式为:将模型生成的文本序列的每个token的对数概率加总,然后除以token的数量。检索条件自评估的关键在于如何判断查询与知识库的相似度,论文使用了余弦相似度来衡量查询和知识库中知识条目的语义相似度。当相似度高于某个阈值时,则将检索到的知识注入到模型的输入中,否则不注入。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,零样本置信度估计方法在分布内性能与监督基线相当(AUROC 0.650-0.714 vs. 0.644-0.676),在分布外性能显著优于监督基线(0.717-0.833 vs. 0.512-0.564)。检索条件自评估方法进一步将AUROC提高了+0.069,并且延迟降低了3-10倍。即使使用1000个标注样本训练的监督基线也无法超过零样本信号。

🎯 应用场景

该研究成果可应用于各种需要置信度估计的场景,例如本地-云路由、对话系统、问答系统等。通过利用零样本置信度估计方法,可以将大部分查询路由到廉价的本地模型,而将困难的查询路由到昂贵的云模型,从而降低部署成本。此外,该方法还可以用于提高对话系统和问答系统的可靠性和用户体验。

📄 摘要(原文)

How reliably can a small language model estimate its own correctness? The answer determines whether local-to-cloud routing-escalating queries a cheap local model cannot handle-can work without supervised training data. As inference costs dominate large language model (LLM) deployment budgets, routing most queries to a cheap local model while reserving expensive cloud calls for hard cases is an increasingly common cost-control strategy. We compare zero-shot confidence signals against RouteLLM-style supervised baselines across three 7-8B model families and two datasets (1,000 and 500 queries per model, respectively). Average token log-probability, which requires no training data, matches or exceeds supervised baselines in-distribution (Area Under the Receiver Operating Characteristic curve (AUROC) 0.650-0.714 vs. 0.644-0.676) and substantially outperforms them out-of-distribution (0.717-0.833 vs. 0.512-0.564), because it measures a property of the model's generation rather than the query distribution. This paper further proposes retrieval-conditional self-assessment, a pre-generation signal that selectively injects retrieved knowledge when similarity is high, improving over bare self-assessment by up to +0.069 AUROC at 3-10x lower latency than log-probability. A supervised baseline trained on 1,000 labeled examples never exceeds the zero-shot signal. We release all code, data, and experiment logs.