Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLM

📄 arXiv: 2508.20384v1 📥 PDF

作者: Yongfu Zhu, Lin Sun, Guangxiang Zhao, Weihong Lin, Xiangzheng Zhang

分类: cs.AI

发布日期: 2025-08-28

备注: Under review for AAAI 2026


💡 一句话要点

提出熵面积评分以量化推理大语言模型的不确定性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 不确定性量化 熵面积评分 数据选择 模型训练

📋 核心要点

  1. 现有方法在量化大语言模型生成答案过程中的不确定性时,往往依赖外部模型或重复采样,效率低下且难以解释。
  2. 论文提出的熵面积评分(EAS)通过整合模型自身的令牌级预测熵,能够有效捕捉生成过程中的不确定性演变,且无需外部依赖。
  3. 实验证明,EAS在识别高潜力样本方面表现优异,能够在相同样本预算下提升学生模型的准确性,尤其在数学基准测试中效果显著。

📝 摘要(中文)

在本研究中,我们引入了熵面积评分(EAS),这是一种简单而有效的度量,用于量化推理大语言模型(LLMs)在答案生成过程中的不确定性。EAS不需要外部模型或重复采样,而是整合了模型自身的令牌级预测熵,以捕捉生成过程中的不确定性演变。实证结果表明,EAS与不同模型和数据集的答案熵高度相关。在训练数据选择中,EAS能够识别高潜力样本,并在相同样本预算下持续优于通过通过率过滤,提升学生模型在数学基准测试上的准确性。EAS高效且可解释,为LLM训练中的不确定性建模和数据质量评估提供了实用工具。

🔬 方法详解

问题定义:本研究旨在解决现有方法在量化推理大语言模型生成答案过程中的不确定性时的低效和不可解释性问题。现有方法通常依赖外部模型或重复采样,导致计算成本高且难以应用。

核心思路:论文提出的熵面积评分(EAS)通过整合模型自身的令牌级预测熵,能够实时捕捉生成过程中的不确定性演变,从而提供一种高效且可解释的度量方式。

技术框架:EAS的整体架构包括数据输入、令牌级预测熵计算、熵面积评分生成和结果输出四个主要模块。首先,输入数据经过模型生成预测,然后计算每个令牌的预测熵,最后整合这些熵值生成EAS。

关键创新:EAS的主要创新在于其不依赖外部模型或重复采样,直接利用模型内部信息来量化不确定性,这与传统方法形成鲜明对比,显著提升了效率和可解释性。

关键设计:在设计EAS时,关键参数包括令牌级熵的计算方式和样本选择策略。损失函数的设计旨在最大化高潜力样本的识别能力,从而提升模型训练的整体效果。具体的网络结构细节和参数设置在实验部分进行了详细描述。

📊 实验亮点

实验结果显示,熵面积评分(EAS)在样本选择中表现优异,能够在相同样本预算下提升学生模型的准确性,尤其在数学基准测试中,EAS的应用使得准确性提升幅度显著,验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括大语言模型的训练优化、数据选择和质量评估等。通过有效量化不确定性,EAS能够帮助研究人员和工程师在模型训练过程中做出更明智的决策,从而提升模型的性能和可靠性。未来,EAS有望在更广泛的自然语言处理任务中得到应用,推动相关领域的发展。

📄 摘要(原文)

In this work, we introduce Entropy Area Score (EAS), a simple yet effective metric to quantify uncertainty in the answer generation process of reasoning large language models (LLMs). EAS requires neither external models nor repeated sampling, it integrates token-level predictive entropy from the model itself to capture the evolution of uncertainty during generation. Empirical results show that EAS is strongly correlated with answer entropy across models and datasets. In training data selection, EAS identifies high-potential samples and consistently outperforms Pass Rate filtering under equal sample budgets, improving student model accuracy on math benchmarks. EAS is both efficient and interpretable, offering a practical tool for uncertainty modeling and data quality assessment in LLM training.