CATTO: Balancing Preferences and Confidence in Language Models

作者: Nisarg Parikh, Kunjal Panchal, Ananya Sai, Pannaga Shivaswamy, Andrew Lan

分类: cs.LG

发布日期: 2026-01-30

💡 一句话要点

提出CATTO以解决语言模型置信度校准问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 置信度校准 偏好优化 多选题回答 机器学习

📋 核心要点

现有的大型语言模型在预测下一个标记时，置信度校准存在显著问题，导致高置信度预测常常错误。
论文提出的CATTO方法通过校准感知的目标，使预测置信度与实际正确性对齐，从而改善模型的置信度表现。
实验结果显示，CATTO在期望校准误差上有显著降低，同时在多选题回答准确性上保持或略有提升。

📝 摘要（中文）

大型语言模型（LLMs）通常能够准确预测下一个标记，但其对这些预测的置信度往往校准不佳：高置信度的预测常常错误，而低置信度的预测可能是正确的。这种不校准现象在基于偏好的对齐方法中更加明显，因为它们打破了预测概率与正确性之间的联系。我们提出了一种校准感知的标记级训练目标（CATTO），该目标使预测置信度与经验预测正确性对齐，并可以与原始的偏好优化目标结合使用。实验证明，CATTO在分布内减少了2.22%-7.61%的期望校准误差（ECE），在分布外减少了1.46%-10.44%。这种置信度的提升并未以牺牲任务准确性为代价，CATTO在五个数据集上维持或略微提高了多选题的回答准确性。我们还引入了Confidence@k，这是一种在测试时利用校准标记概率进行贝叶斯最优输出标记选择的机制。

🔬 方法详解

问题定义：本论文旨在解决大型语言模型在预测时置信度校准不佳的问题。现有的基于偏好的对齐方法常常导致预测概率与实际正确性之间的关系被打破，进而影响模型的可靠性。

核心思路：CATTO方法的核心思路是引入校准感知的训练目标，使得模型的预测置信度能够更好地反映其实际的预测正确性。这种设计旨在通过优化置信度与正确性之间的关系，提升模型的整体表现。

技术框架：CATTO的整体架构包括两个主要模块：校准目标模块和偏好优化模块。校准目标模块负责调整模型的置信度，使其与实际的预测结果相符，而偏好优化模块则维持原有的偏好学习机制。

关键创新：CATTO的最大创新在于提出了一种新的训练目标，使得模型在优化过程中能够同时考虑置信度和预测正确性。这一方法与传统的直接偏好优化方法相比，能够显著改善置信度的校准效果。

关键设计：在技术细节上，CATTO使用了特定的损失函数来平衡置信度与正确性之间的关系，并在训练过程中引入了Confidence@k机制，以便在测试阶段进行更优的标记选择。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CATTO在期望校准误差（ECE）方面相比于直接偏好优化（DPO）减少了2.22%-7.61%（分布内）和1.46%-10.44%（分布外），并且在多选题回答准确性上保持或略微提高，显示出其在置信度校准和任务性能上的双重优势。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的对话系统、问答系统以及文本生成等任务。通过提高语言模型的置信度校准，能够增强模型在实际应用中的可靠性和用户体验，未来可能对智能助手和自动化内容生成等领域产生深远影响。

📄 摘要（原文）

Large language models (LLMs) often make accurate next token predictions but their confidence in these predictions can be poorly calibrated: high-confidence predictions are frequently wrong, and low-confidence predictions may be correct. This miscalibration is exacerbated by preference-based alignment methods breaking the link between predictive probability and correctness. We introduce a Calibration Aware Token-level Training Objective (CATTO), a calibration-aware objective that aligns predicted confidence with empirical prediction correctness, which can be combined with the original preference optimization objectives. Empirically, CATTO reduces Expected Calibration Error (ECE) by 2.22%-7.61% in-distribution and 1.46%-10.44% out-of-distribution compared to direct preference optimization (DPO), and by 0.22%-1.24% in-distribution and 1.23%-5.07% out-of-distribution compared to the strongest DPO baseline. This improvement in confidence does not come at a cost of losing task accuracy, where CATTO maintains or slightly improves multiple-choice question-answering accuracy on five datasets. We also introduce Confidence@k, a test-time scaling mechanism leveraging calibrated token probabilities for Bayes-optimal selection of output tokens.

CATTO: Balancing Preferences and Confidence in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理