Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks

作者: Haokai Ma, Lee Yan Zhen, Gang Yang, Yunshan Ma, Ee-Chien Chang, Tat-Seng Chua

分类: cs.LG

发布日期: 2026-04-09

💡 一句话要点

提出HyTuning框架，通过混合后训练提升大模型在高风险任务中的置信度可靠性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 置信度可靠性 后训练 推理蒸馏 强化学习 高风险任务 渐进推理增益

📋 核心要点

现有方法在高质量训练数据稀缺、过度自信和错误更新放大等方面存在不足，难以保证高风险任务中大模型的置信度可靠性。
论文提出Progressive Reasoning Gain (PRG)来衡量推理步骤对最终答案的支持程度，并引入HyTuning框架自适应地融合RD和RLIF。
实验结果表明，HyTuning在有限监督下提高了准确性，同时实现了置信度可靠性，验证了“少即是多”的有效性。

📝 摘要（中文）

大型语言模型越来越多地应用于高风险任务中，在这些任务中，自信但错误的推断可能会造成严重的现实危害，使得先前被忽视的置信度可靠性问题重新受到关注。一个有希望的解决方案是将无监督的内部反馈强化学习（RLIF）与推理轨迹引导的推理蒸馏（RD）联合优化，但这可能面临三个持续的挑战：高质量训练语料库的稀缺、缺乏事实依据的过度自信以及放大错误更新的无差别融合。受到人类从不确定性到确定性的置信度积累的启发，我们提出了渐进推理增益（PRG）来衡量推理步骤是否逐步加强对最终答案的支持。此外，我们引入了HyTuning，一个混合后训练框架，通过PRG风格的指标自适应地重新加权RD和RLIF，使用稀缺的监督推理轨迹作为稳定的锚点，同时利用丰富的未标记查询来实现可扩展性。在几个特定领域和通用基准上的实验表明，HyTuning在有限的监督下提高了准确性，同时实现了置信度可靠性，支持了一种实用的“少即是多”的效果。

🔬 方法详解

问题定义：当前的大型语言模型在高风险任务中，经常出现自信但错误的预测，导致严重的实际危害。现有的联合优化RLIF和RD的方法，面临着高质量训练数据稀缺、过度自信以及错误更新放大等问题，难以保证置信度可靠性。

核心思路：论文的核心思路是模拟人类从不确定到确定的置信度积累过程，通过Progressive Reasoning Gain (PRG)来衡量推理步骤对最终答案的支持程度。然后，利用PRG自适应地融合推理蒸馏（RD）和内部反馈强化学习（RLIF），从而在有限的监督下提高模型的准确性和置信度可靠性。

技术框架：HyTuning框架是一个混合后训练框架，主要包含以下几个阶段：1）使用少量监督数据进行推理蒸馏（RD），作为稳定的锚点。2）利用大量无标签数据进行内部反馈强化学习（RLIF），提升模型性能。3）使用Progressive Reasoning Gain (PRG)指标，自适应地重新加权RD和RLIF的更新，平衡准确性和置信度。

关键创新：论文的关键创新在于提出了Progressive Reasoning Gain (PRG)指标，用于衡量推理步骤对最终答案的支持程度。与现有方法不同，PRG能够更准确地评估推理过程的质量，从而实现更有效的RD和RLIF融合。此外，HyTuning框架通过混合后训练的方式，充分利用了监督数据和无监督数据，提高了模型的可扩展性。

关键设计：PRG的计算方式是衡量每个推理步骤后模型对答案置信度的提升程度。HyTuning框架使用PRG作为权重，自适应地调整RD和RLIF的损失函数。具体来说，如果PRG较高，则增加RD的权重，反之则增加RLIF的权重。这种自适应调整能够平衡模型的准确性和置信度，从而提高整体性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HyTuning框架在多个领域特定和通用基准测试中，在有限监督的情况下，提高了模型的准确性，同时实现了置信度可靠性。该方法在保证性能的同时，有效降低了模型过度自信的风险，验证了“少即是多”的理念。

🎯 应用场景

该研究成果可应用于医疗诊断、金融风控、法律咨询等高风险领域，提升大型语言模型在这些领域的可靠性和安全性。通过提高模型的置信度可靠性，可以减少错误决策带来的潜在危害，增强用户对AI系统的信任。

📄 摘要（原文）

Large language models are increasingly deployed in high-stakes tasks, where confident yet incorrect inferences may cause severe real-world harm, bringing the previously overlooked issue of confidence faithfulness back to the forefront. A promising solution is to jointly optimize unsupervised Reinforcement Learning from Internal Feedback (RLIF) with reasoning-trace-guided Reasoning Distillation (RD), which may face three persistent challenges: scarcity of high-quality training corpora, factually unwarranted overconfidence and indiscriminate fusion that amplifies erroneous updates. Inspired by the human confidence accumulation from uncertainty to certainty, we propose Progressive Reasoning Gain (PRG) to measure whether reasoning steps progressively strengthen support for the final answer. Furthermore, we introduce HyTuning, a hybrid post-training framework that adaptively reweights RD and RLIF via a PRG-style metric, using scarce supervised reasoning traces as a stable anchor while exploiting abundant unlabeled queries for scalability. Experiments on several domain-specific and general benchmarks demonstrate that HyTuning improves accuracy while achieving confidence faithfulness under limited supervision, supporting a practical "Less Approximates More" effect.

Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理