Gradients with Respect to Semantics Preserving Embeddings Tell the Uncertainty of Large Language Models
作者: Mingda Li, Rundong Lv, Xinyu Li, Weinan Zhang, Ting Liu
分类: cs.CL, cs.AI
发布日期: 2026-05-06
备注: Accepted by ICML 2026
💡 一句话要点
提出SemGrad,一种基于语义梯度的无采样LLM不确定性量化方法,提升效率和准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 不确定性量化 大型语言模型 语义梯度 自由文本生成 无采样方法
📋 核心要点
- 现有LLM不确定性量化方法依赖采样,计算成本高,方差大,限制了实际应用。
- SemGrad利用语义空间梯度,通过评估模型在语义扰动下的输出稳定性来量化不确定性。
- 实验表明,SemGrad和HybridGrad在不确定性估计方面优于现有方法,尤其在多有效响应场景下。
📝 摘要(中文)
鉴于大型语言模型(LLM)容易产生幻觉,不确定性量化(UQ)是确保其可信度的重要技术。目前最先进的自由形式生成UQ方法严重依赖采样,导致计算成本高昂和方差大。本文提出了一种基于梯度的自由形式生成UQ方法SemGrad,它是无采样的且计算效率高。与之前为分类任务开发的、在参数空间中运行的基于梯度的方法不同,我们建议考虑语义空间中的梯度。我们的方法建立在一个关键的直觉之上:一个自信的LLM应该在语义等价的输入扰动下保持稳定的输出分布。我们将这种稳定性解释为语义空间中的梯度,并引入语义保持分数(SPS)来识别最能捕捉语义的嵌入,并计算相对于这些嵌入的梯度。我们进一步提出了HybridGrad,它结合了SemGrad和参数梯度的优点。实验表明,我们的方法提供了高效且有效的不确定性估计,优于最先进的方法,尤其是在具有多个有效响应的设置中。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)不确定性量化方法,尤其是在自由文本生成任务中,主要依赖于采样技术。这些方法需要多次采样生成结果,然后通过统计分析来估计模型的不确定性。然而,采样过程计算成本高昂,并且引入了额外的方差,影响了不确定性估计的准确性。因此,如何高效且准确地量化LLM在自由文本生成中的不确定性是一个关键问题。
核心思路:本文的核心思路是利用语义空间中的梯度来量化LLM的不确定性。作者认为,一个对自身输出有信心的LLM,在面对语义上等价的输入扰动时,应该保持输出分布的稳定性。换句话说,如果对输入进行微小的、不改变其语义的修改,模型的输出应该不会发生显著变化。通过计算输出分布对语义空间中输入扰动的梯度,可以衡量模型的这种稳定性,从而估计其不确定性。
技术框架:SemGrad方法主要包含以下几个步骤:1) 选择或学习能够有效捕捉输入文本语义的嵌入空间。2) 对输入文本在该嵌入空间中进行微小的扰动,生成语义上等价的变体。3) 计算LLM输出分布相对于这些扰动的梯度。4) 使用语义保持分数(SPS)来选择最能代表语义的嵌入,并基于这些嵌入计算梯度。5) 根据计算得到的梯度幅度来估计模型的不确定性。梯度幅度越大,表示模型对输入扰动越敏感,不确定性越高。HybridGrad方法则结合了SemGrad和参数梯度的优点,进一步提升了不确定性估计的性能。
关键创新:该方法最重要的创新在于将梯度分析从传统的参数空间转移到语义空间。以往基于梯度的不确定性量化方法主要关注模型参数的梯度,而SemGrad则关注模型输出对输入语义扰动的敏感程度。这种方法更直接地反映了模型对输入语义的理解和置信度,避免了参数空间梯度可能存在的噪声和冗余信息。此外,无采样的特性也显著提高了计算效率。
关键设计:SemGrad的关键设计包括:1) 语义保持分数(SPS):用于选择最能代表语义的嵌入,确保梯度计算的有效性。SPS的具体计算方式未知,论文中可能涉及。2) 扰动幅度:需要仔细选择扰动幅度,过小的扰动可能无法有效触发模型的不确定性,过大的扰动则可能改变输入的语义。3) 梯度计算方法:需要选择合适的梯度计算方法,例如使用自动微分技术。4) HybridGrad中SemGrad和参数梯度的融合方式,可能涉及加权平均或其他融合策略。
🖼️ 关键图片
📊 实验亮点
SemGrad在不确定性估计方面取得了显著的性能提升,优于现有最先进的方法。尤其是在具有多个有效响应的场景下,SemGrad能够更准确地识别模型的不确定性。具体性能数据未知,但摘要中明确指出SemGrad和HybridGrad都优于state-of-the-art方法。
🎯 应用场景
该研究成果可应用于各种需要高可靠性和可信度的大型语言模型应用场景,例如医疗诊断、金融风控、自动驾驶等。通过量化模型的不确定性,可以帮助用户更好地理解模型的预测结果,并采取相应的措施来降低风险。此外,该方法还可以用于提高模型的鲁棒性和泛化能力,使其在面对未知或对抗性输入时更加稳定可靠。
📄 摘要(原文)
Uncertainty quantification (UQ) is an important technique for ensuring the trustworthiness of LLMs, given their tendency to hallucinate. Existing state-of-the-art UQ approaches for free-form generation rely heavily on sampling, which incurs high computational cost and variance. In this work, we propose the first gradient-based UQ method for free-form generation, SemGrad, which is sampling-free and computationally efficient. Unlike prior gradient-based methods developed for classification tasks that operates in parameter space, we propose to consider gradients in semantic space. Our method builds on the key intuition that a confident LLM should maintain stable output distributions under semantically equivalent input perturbations. We interpret the stability as the gradients in semantic space and introduce a Semantic Preservation Score (SPS) to identify embeddings that best capture semantics, with respect to which gradients are computed. We further propose HybridGrad, which combines the strengths of SemGrad and parameter gradients. Experiments demonstrate that both of our methods provide efficient and effective uncertainty estimates, achieving superior performance than state-of-the-art methods, particularly in settings with multiple valid responses.