Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM
作者: Haotian Sheng, Heyong Wang, Ming Hong, Hongman He, Junqiu Liu
分类: cs.CL, cs.LG
发布日期: 2026-02-11
💡 一句话要点
提出LSCL,一种基于深度学习的黑盒LLM知识边界表达方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 知识边界 黑盒模型 深度学习 知识蒸馏 幻觉抑制 置信度学习
📋 核心要点
- 现有方法难以有效表达黑盒LLM的知识边界,阻碍了其在实际应用中的可靠性。
- LSCL利用知识蒸馏框架,训练深度学习模型学习黑盒LLM的知识状态,从而表达其知识边界。
- 实验表明,LSCL在知识边界表达的准确率和召回率上显著优于现有基线模型,且具有自适应性。
📝 摘要(中文)
大型语言模型(LLM)取得了显著成功,但内容生成失真(幻觉)限制了其应用。幻觉的核心原因是LLM缺乏对其内部知识的感知,无法像人类一样表达超出其知识边界的问题的知识状态。现有知识边界表达研究主要集中在白盒LLM上,而适用于仅提供API访问而不公开内部参数的黑盒LLM的方法尚未充分探索。本文提出LSCL(LLM监督的置信度学习),一种基于深度学习的黑盒LLM知识边界表达方法。该方法基于知识蒸馏框架,设计了一个深度学习模型,以黑盒LLM的输入问题、输出答案和token概率作为输入,构建输入与模型内部知识状态之间的映射,从而量化和表达黑盒LLM的知识边界。在多个公共数据集和多个知名黑盒LLM上进行的实验表明,LSCL能有效辅助黑盒LLM准确表达其知识边界,在准确率和召回率等指标上显著优于现有基线模型。此外,针对某些黑盒LLM不支持访问token概率的情况,提出了一种自适应替代方法,其性能接近LSCL并优于基线模型。
🔬 方法详解
问题定义:论文旨在解决黑盒大型语言模型(LLM)无法准确表达自身知识边界的问题。现有的知识边界表达方法主要针对白盒LLM,无法直接应用于只能通过API访问的黑盒LLM。黑盒LLM的幻觉问题,很大程度上源于其无法区分已知和未知信息,导致生成不准确或虚假的内容。
核心思路:论文的核心思路是利用知识蒸馏,训练一个深度学习模型来模拟黑盒LLM的知识状态。该模型以黑盒LLM的输入、输出和token概率作为输入,学习一个映射关系,将这些信息与LLM内部的知识状态联系起来。通过这个映射,模型可以判断LLM是否具备回答特定问题的知识,从而表达其知识边界。
技术框架:LSCL的技术框架主要包含以下几个步骤:1) 使用黑盒LLM对大量问题进行回答,并记录输入问题、输出答案以及每个token的概率。2) 构建一个深度学习模型,该模型以问题、答案和token概率作为输入。3) 使用黑盒LLM的输出作为监督信号,训练深度学习模型,使其能够预测LLM的知识状态。4) 使用训练好的深度学习模型来判断LLM是否具备回答新问题的知识,从而表达其知识边界。
关键创新:LSCL的关键创新在于它提出了一种适用于黑盒LLM的知识边界表达方法。与现有方法相比,LSCL不需要访问LLM的内部参数,只需要通过API即可实现知识边界的表达。此外,LSCL还提出了一种自适应替代方法,用于处理某些黑盒LLM不支持访问token概率的情况。
关键设计:深度学习模型的具体结构未知,但可以推测其可能采用Transformer或类似的架构,以处理文本序列数据。损失函数的设计目标是使模型能够准确预测LLM的知识状态,可能包括交叉熵损失或均方误差损失。对于自适应替代方法,论文可能采用了其他可获得的LLM输出信息,例如置信度分数或生成概率,来替代token概率。
📊 实验亮点
实验结果表明,LSCL在多个公共数据集和多个知名黑盒LLM上均取得了显著的性能提升。在知识边界表达的准确率和召回率等指标上,LSCL显著优于现有基线模型。即使在token概率不可用的情况下,自适应替代方法也能取得接近LSCL的性能,并优于基线模型。
🎯 应用场景
该研究成果可应用于提升黑盒LLM的可靠性和可信度,例如在问答系统、对话机器人等应用中,帮助LLM识别自身知识盲区,避免生成幻觉内容。此外,该方法还可用于评估不同LLM的知识覆盖范围,为用户选择合适的LLM提供参考。
📄 摘要(原文)
Large Language Models (LLMs) have achieved remarkable success, however, the emergence of content generation distortion (hallucination) limits their practical applications. The core cause of hallucination lies in LLMs' lack of awareness regarding their stored internal knowledge, preventing them from expressing their knowledge state on questions beyond their internal knowledge boundaries, as humans do. However, existing research on knowledge boundary expression primarily focuses on white-box LLMs, leaving methods suitable for black-box LLMs which offer only API access without revealing internal parameters-largely unexplored. Against this backdrop, this paper proposes LSCL (LLM-Supervised Confidence Learning), a deep learning-based method for expressing the knowledge boundaries of black-box LLMs. Based on the knowledge distillation framework, this method designs a deep learning model. Taking the input question, output answer, and token probability from a black-box LLM as inputs, it constructs a mapping between the inputs and the model' internal knowledge state, enabling the quantification and expression of the black-box LLM' knowledge boundaries. Experiments conducted on diverse public datasets and with multiple prominent black-box LLMs demonstrate that LSCL effectively assists black-box LLMs in accurately expressing their knowledge boundaries. It significantly outperforms existing baseline models on metrics such as accuracy and recall rate. Furthermore, considering scenarios where some black-box LLMs do not support access to token probability, an adaptive alternative method is proposed. The performance of this alternative approach is close to that of LSCL and surpasses baseline models.