UQLM: A Python Package for Uncertainty Quantification in Large Language Models

📄 arXiv: 2507.06196v1 📥 PDF

作者: Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik, Ho-Kyeong Ra, Viren Bajaj, Zeya Ahmad

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-08

备注: Submitted to Journal of Machine Learning Research (MLOSS); UQLM Repository: https://github.com/cvs-health/uqlm


💡 一句话要点

UQLM:一个基于不确定性量化的大语言模型幻觉检测Python工具包

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 不确定性量化 置信度评分 Python工具包

📋 核心要点

  1. 大型语言模型容易产生幻觉,这降低了其在实际应用中的可靠性和安全性。
  2. UQLM工具包通过不确定性量化技术,为LLM的每个响应生成置信度评分,辅助判断是否为幻觉。
  3. UQLM提供了一套易于使用的API,可以方便地集成到现有的LLM应用中,提升模型输出质量。

📝 摘要(中文)

大型语言模型(LLM)生成虚假或误导性内容(即幻觉)是一个重大挑战,影响下游应用的安全性和信任度。本文介绍UQLM,一个Python包,利用最先进的不确定性量化(UQ)技术进行LLM幻觉检测。该工具包提供了一套基于UQ的评分器,用于计算响应级别的置信度分数,范围从0到1。该库提供了一个现成的解决方案,用于基于UQ的幻觉检测,可以轻松集成以提高LLM输出的可靠性。

🔬 方法详解

问题定义:大型语言模型(LLM)的幻觉问题,即生成不真实或误导性信息,严重阻碍了LLM在实际场景中的应用。现有的幻觉检测方法往往依赖于外部知识库或人工标注,成本高昂且效率低下。

核心思路:UQLM的核心思路是利用不确定性量化(Uncertainty Quantification, UQ)技术,为LLM的每个输出生成一个置信度评分。高置信度表示模型对该输出更有把握,反之则可能存在幻觉。通过设定阈值,可以自动识别并过滤掉潜在的幻觉内容。

技术框架:UQLM工具包主要包含以下几个模块:1) UQ评分器:实现各种基于UQ的评分算法,用于计算LLM输出的置信度;2) 预处理模块:对LLM的输入和输出进行必要的处理,例如分词、编码等;3) 后处理模块:对UQ评分进行校准和归一化,使其更易于理解和使用;4) 评估模块:提供评估UQ评分器性能的指标和工具。

关键创新:UQLM的关键创新在于提供了一个统一的、易于使用的框架,将多种先进的UQ技术应用于LLM幻觉检测。它无需外部知识库或人工标注,可以快速部署到各种LLM应用中。此外,UQLM还提供了一套全面的评估指标,方便用户选择和优化UQ评分器。

关键设计:UQLM支持多种UQ评分算法,例如:1) 基于Dropout的UQ:在LLM推理过程中引入Dropout,通过多次采样得到输出分布,计算方差作为不确定性度量;2) 基于Deep Ensemble的UQ:训练多个LLM模型,利用模型之间的差异来估计不确定性;3) 基于温度缩放的UQ:通过调整softmax输出的温度参数,校准模型的置信度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UQLM提供了一套现成的UQ评分器,可以方便地集成到现有的LLM应用中。通过实验验证,UQLM能够有效地检测LLM的幻觉,并显著提高模型输出的可靠性。具体性能数据和对比基线在论文中进行了详细展示。

🎯 应用场景

UQLM可广泛应用于各种依赖LLM的应用场景,例如:智能客服、内容生成、信息检索等。通过降低LLM幻觉的风险,UQLM可以提高这些应用的可靠性和用户体验。未来,UQLM可以扩展到支持更多类型的LLM和UQ算法,并集成到更大的AI系统中。

📄 摘要(原文)

Hallucinations, defined as instances where Large Language Models (LLMs) generate false or misleading content, pose a significant challenge that impacts the safety and trust of downstream applications. We introduce UQLM, a Python package for LLM hallucination detection using state-of-the-art uncertainty quantification (UQ) techniques. This toolkit offers a suite of UQ-based scorers that compute response-level confidence scores ranging from 0 to 1. This library provides an off-the-shelf solution for UQ-based hallucination detection that can be easily integrated to enhance the reliability of LLM outputs.