Towards Objective Fine-tuning: How LLMs' Prior Knowledge Causes Potential Poor Calibration?

📄 arXiv: 2505.20903v1 📥 PDF

作者: Ziming Wang, Zeyu Shi, Haoyi Zhou, Shiqi Gao, Qingyun Sun, Jianxin Li

分类: cs.CL

发布日期: 2025-05-27

备注: Accepted to ACL2025 Main; The code will be released soon


💡 一句话要点

提出CogCalib以解决LLMs微调中的校准问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微调 校准性 认知感知 学习策略 人机交互 自然语言处理

📋 核心要点

  1. 现有的微调方法在大型语言模型的校准性上存在不足,导致置信度与实际性能不一致。
  2. 论文提出CogCalib框架,通过针对性学习策略改善LLMs的校准性,充分考虑模型的先验知识。
  3. 实验结果显示,CogCalib在多个任务上显著提升了校准性,且在Llama3-8B上实现了57%的ECE降低。

📝 摘要(中文)

微调后的大型语言模型(LLMs)常常表现出较差的校准性,其置信度分数与实际性能不一致。尽管从零开始训练的模型的校准性已被广泛研究,但LLMs的先验知识在微调过程中的影响仍未得到充分探讨。我们的研究揭示,LLMs的先验知识可能导致校准不佳,尤其是在真实世界微调中已知数据的普遍存在。具体而言,与LLMs先验知识一致的数据会导致过度自信,而新知识则有助于改善校准。为了解决这一问题,我们提出了CogCalib,一个认知感知框架,根据模型的先验知识应用有针对性的学习策略。实验表明,CogCalib在7个任务中显著改善了校准性,同时保持了性能,在Llama3-8B上实现了平均57%的ECE降低。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在微调过程中校准性差的问题。现有方法未能充分考虑LLMs的先验知识对校准的影响,导致模型在已知数据上表现出过度自信。

核心思路:CogCalib框架的核心思路是根据LLMs的先验知识,应用有针对性的学习策略,以改善模型的校准性。通过识别已知数据与新知识的关系,CogCalib能够有效调整模型的学习过程。

技术框架:CogCalib的整体架构包括数据识别模块、学习策略调整模块和校准评估模块。数据识别模块用于区分已知数据和新知识,学习策略调整模块则根据识别结果优化模型的学习策略,最后通过校准评估模块验证模型的校准效果。

关键创新:CogCalib的主要创新在于其认知感知的学习策略,能够动态调整模型在微调过程中的学习重点,从而有效改善校准性。这一方法与传统的微调方法在处理已知数据时的静态学习策略形成鲜明对比。

关键设计:在设计上,CogCalib采用了特定的损失函数来平衡已知数据与新知识的影响,同时在网络结构上引入了模块化设计,使得不同任务的适应性更强。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CogCalib在7个任务中显著改善了模型的校准性,Llama3-8B模型的ECE平均降低了57%。这些改进不仅在训练任务中有效,也能很好地推广到域外任务,增强了模型的客观性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和人机交互等。CogCalib的提出使得大型语言模型在特定领域的应用更加可靠,尤其是在需要高可信度的关键应用场景中,能够有效提升人机交互的质量和安全性。

📄 摘要(原文)

Fine-tuned Large Language Models (LLMs) often demonstrate poor calibration, with their confidence scores misaligned with actual performance. While calibration has been extensively studied in models trained from scratch, the impact of LLMs' prior knowledge on calibration during fine-tuning remains understudied. Our research reveals that LLMs' prior knowledge causes potential poor calibration due to the ubiquitous presence of known data in real-world fine-tuning, which appears harmful for calibration. Specifically, data aligned with LLMs' prior knowledge would induce overconfidence, while new knowledge improves calibration. Our findings expose a tension: LLMs' encyclopedic knowledge, while enabling task versatility, undermines calibration through unavoidable knowledge overlaps. To address this, we propose CogCalib, a cognition-aware framework that applies targeted learning strategies according to the model's prior knowledge. Experiments across 7 tasks using 3 LLM families prove that CogCalib significantly improves calibration while maintaining performance, achieving an average 57\% reduction in ECE compared to standard fine-tuning in Llama3-8B. These improvements generalize well to out-of-domain tasks, enhancing the objectivity and reliability of domain-specific LLMs, and making them more trustworthy for critical human-AI interaction applications.