Shared Doubt: Zero-shot Cross-Lingual Confidence Estimation for Language Models
作者: Athina Kyriakou, Dennis Ulmer, Ivan Titov
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-29
💡 一句话要点
提出一种零样本跨语言置信度估计方法,利用多语言LLM的共享置信度特征。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 置信度估计 零样本学习 跨语言迁移 多语言LLM 线性探针
📋 核心要点
- 现有置信度估计方法主要集中在英语,忽略了多语言LLM的应用,且跨语言性能差或需重新训练。
- 利用多语言LLM中共享的、可迁移的置信度特征,训练轻量级线性探针,直接预测答案正确性。
- 实验表明,该探针在多种语言上实现了零样本泛化,且性能优于其他流行的置信度估计方法。
📝 摘要(中文)
置信度估计(CE),即量化模型预测的可靠性,在大语言模型(LLM)的背景下引起了极大的兴趣。然而,大多数研究集中在英语上,忽略了LLM使用的多语言现实,而许多CE方法在跨语言时会退化或需要重新训练。为了解决这个差距,我们研究了多语言LLM是否编码了共享的、可跨语言迁移的置信度特征。我们使用一个轻量级的线性探针,直接从中间表示预测答案的正确性。该探针在单语训练后,可以零样本泛化到未见过的、类型多样的语言,而无需目标语言的监督。学习到的层权重和多次消融实验表明,置信度特征集中在跨语言的中间层,表明存在一个共享的置信度子空间。虽然零样本跨语言性能取决于与源语言的相似性,但该探针提供了一个强大的基线,无需任何重新训练,并且与其他流行的置信度估计方法相比表现良好。
🔬 方法详解
问题定义:论文旨在解决大语言模型在多语言场景下的置信度估计问题。现有方法主要针对英语,无法直接应用于其他语言,或者需要大量的目标语言数据进行重新训练,成本高昂且效果不佳。因此,如何实现零样本跨语言的置信度估计是一个重要的挑战。
核心思路:论文的核心思路是利用多语言大语言模型(LLM)中存在的共享置信度特征。作者假设,不同语言的文本在经过LLM处理后,其内部表示中蕴含着一些通用的、与置信度相关的特征。通过学习这些特征,可以实现跨语言的置信度估计。
技术框架:论文提出的技术框架主要包含以下几个步骤:1) 使用单语数据训练一个轻量级的线性探针,该探针以LLM的中间层表示作为输入,预测答案的正确性。2) 将训练好的探针直接应用于其他未见过的语言,进行零样本的置信度估计。3) 通过分析学习到的层权重和进行消融实验,研究置信度特征在LLM中的分布情况。
关键创新:论文最重要的技术创新点在于发现了多语言LLM中存在的共享置信度子空间,并利用这一特性实现了零样本跨语言的置信度估计。与现有方法相比,该方法无需目标语言的训练数据,具有更高的效率和更广泛的适用性。
关键设计:论文的关键设计包括:1) 选择合适的LLM中间层表示作为探针的输入。实验表明,中间层的表示包含更丰富的置信度信息。2) 使用简单的线性探针,以降低训练成本和提高泛化能力。3) 通过分析学习到的层权重,确定置信度特征集中的层。4) 采用多种语言进行实验,验证方法的跨语言泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在多种语言上实现了零样本的置信度估计,性能优于其他流行的置信度估计方法。例如,在某些语言上,该方法甚至可以达到与使用目标语言数据训练的模型的性能相当的水平。此外,实验还发现,置信度特征主要集中在LLM的中间层。
🎯 应用场景
该研究成果可应用于多语言智能客服、机器翻译质量评估、跨语言信息检索等领域。通过准确估计模型在不同语言下的置信度,可以提高系统的可靠性和用户体验,并为后续的错误纠正和模型改进提供依据。未来,该方法有望扩展到更多语言和任务,促进多语言自然语言处理的发展。
📄 摘要(原文)
Confidence estimation (CE), i.e. quantifying the reliability of a model's prediction, has attracted great interest in the context of large language models (LLMs). However, most studies focus on English, ignoring the multilingual reality of LLM usage, while many CE methods degrade or require retraining across languages. To address this gap, we investigate whether multilingual LLMs encode shared, language-transferable confidence features. We use a lightweight linear probe that predicts answer correctness directly from intermediate representations. Trained monolingually, the probe generalizes zero-shot to unseen, typologically diverse languages without target-language supervision. Learned layer weights and multiple ablations reveal that confidence features concentrate in middle layers across languages, suggesting a shared confidence subspace. While zero-shot cross-lingual performance depends on similarity to the source language, the probe provides a strong baseline without any retraining and compares favorably to other popular confidence estimation methods.