Beyond Hallucinations: A Composite Score for Measuring Reliability in Open-Source Large Language Models

📄 arXiv: 2512.24058v1 📥 PDF

作者: Rohit Kumar Salla, Manoj Saravanan, Shrikar Reddy Kota

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-30

备注: 5 pages, 4 tables, accepted at AAAI 2026


💡 一句话要点

提出综合可靠性评分CRS,用于评估开源大语言模型的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可靠性评估 校准 鲁棒性 不确定性量化 开源模型 综合评分

📋 核心要点

  1. 现有LLM评估方法分散,无法全面衡量其在关键决策领域的可靠性,尤其是在校准、鲁棒性和不确定性量化方面。
  2. 提出综合可靠性评分(CRS),将校准、鲁棒性和不确定性量化整合为一个统一的、可解释的评估指标。
  3. 实验表明,CRS能够稳定地对模型进行排名,发现单一指标无法检测到的隐藏故障模式,并突出可靠系统需平衡准确性、鲁棒性和校准不确定性。

📝 摘要(中文)

大型语言模型(LLM),如LLaMA、Mistral和Gemma,越来越多地应用于医疗、法律和金融等决策关键领域,但其可靠性仍然不确定。它们经常出现过度自信的错误,在输入变化时性能下降,并且缺乏明确的不确定性估计。现有的评估方法是分散的,仅处理孤立的方面。本文介绍了一种综合可靠性评分(CRS),这是一个统一的框架,将校准、鲁棒性和不确定性量化整合到一个可解释的指标中。通过对五个QA数据集上的十个领先的开源LLM的实验,我们评估了基线、扰动和校准方法下的性能。CRS提供了稳定的模型排名,揭示了单个指标遗漏的隐藏故障模式,并强调了最可靠的系统能够平衡准确性、鲁棒性和校准后的不确定性。

🔬 方法详解

问题定义:现有的大语言模型在医疗、法律、金融等关键决策领域应用广泛,但其可靠性存在问题。模型常常过度自信地犯错,在输入发生变化时性能下降,并且缺乏清晰的不确定性估计。现有的评估方法通常只关注孤立的方面,无法提供对模型可靠性的全面评估。

核心思路:论文的核心思路是构建一个综合性的可靠性评分(Composite Reliability Score, CRS),将模型的校准性、鲁棒性和不确定性量化整合到一个统一的指标中。通过综合考虑这些因素,可以更全面地评估模型的可靠性,并发现单一指标可能遗漏的隐藏故障模式。

技术框架:CRS框架包含三个主要组成部分:校准评估、鲁棒性评估和不确定性量化。首先,使用校准方法评估模型预测概率的准确性。其次,通过引入输入扰动来评估模型的鲁棒性。最后,量化模型预测的不确定性。将这三个方面的评估结果整合为一个综合评分,即CRS。

关键创新:该论文的关键创新在于提出了一个统一的框架,将校准、鲁棒性和不确定性量化整合到一个可解释的指标中。与现有的评估方法相比,CRS能够更全面地评估模型的可靠性,并发现单一指标可能遗漏的隐藏故障模式。

关键设计:CRS的具体计算方法未知,论文中可能涉及对不同评估指标的加权平均,权重设置可能需要根据具体应用场景进行调整。具体的校准方法、扰动类型和不确定性量化方法也需要根据具体任务进行选择。

📊 实验亮点

实验结果表明,CRS能够提供稳定的模型排名,揭示了单一指标遗漏的隐藏故障模式。通过对十个领先的开源LLM在五个QA数据集上的评估,验证了CRS的有效性。研究强调,最可靠的系统需要在准确性、鲁棒性和校准后的不确定性之间取得平衡。

🎯 应用场景

该研究成果可应用于对开源大语言模型进行可靠性评估,帮助用户选择更可靠的模型应用于医疗、法律、金融等决策关键领域。同时,CRS可以作为模型开发者改进模型可靠性的参考指标,促进更安全、更值得信赖的AI系统的发展。

📄 摘要(原文)

Large Language Models (LLMs) like LLaMA, Mistral, and Gemma are increasingly used in decision-critical domains such as healthcare, law, and finance, yet their reliability remains uncertain. They often make overconfident errors, degrade under input shifts, and lack clear uncertainty estimates. Existing evaluations are fragmented, addressing only isolated aspects. We introduce the Composite Reliability Score (CRS), a unified framework that integrates calibration, robustness, and uncertainty quantification into a single interpretable metric. Through experiments on ten leading open-source LLMs across five QA datasets, we assess performance under baselines, perturbations, and calibration methods. CRS delivers stable model rankings, uncovers hidden failure modes missed by single metrics, and highlights that the most dependable systems balance accuracy, robustness, and calibrated uncertainty.