Differentiable Conformal Training for LLM Reasoning Factuality

📄 arXiv: 2604.20098v1 📥 PDF

作者: Nathan Hittesdorf, Marco Salzetta, Lu Cheng

分类: cs.LG

发布日期: 2026-04-22

备注: Submitted ICML


💡 一句话要点

提出可微一致性训练(DCF),提升LLM推理事实性并保持可靠性保证。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 事实性 一致性预测 可微学习 推理 可靠性 幻觉

📋 核心要点

  1. 现有方法在LLM推理事实性验证中,手工设计的评分器导致高可靠性下大量真实声明被移除。
  2. 论文提出可微一致性事实性(DCF),通过可微松弛实现更优评分器学习,同时保证原始算法的可靠性。
  3. 实验表明,DCF在两个推理数据集上,显著提升了声明保留率,同时维持了可靠性保证。

📝 摘要(中文)

大型语言模型(LLM)经常产生幻觉,限制了其在关键应用中的可靠性。一致性预测(CP)通过校准预留数据上的错误率来解决这个问题,以提供统计上有效的置信度保证。最近的工作将CP扩展到LLM事实性,以过滤掉有风险的声明,确保幻觉率保持在用户指定的水平以下(例如,10%)。虽然先前的方法独立地处理声明,但一致性事实性通过将输出表示为依赖关系图,并联合验证声明及其逻辑祖先,从而扩展到多步推理。一个关键的限制是,一致性事实性是不可微的,需要手工制作的评分器,这些评分器在高可靠性水平下会删除近60%的真实声明。我们引入了可微一致性事实性(DCF),这是一种完全可微的松弛方法,可以学习改进的评分器,同时可证明地恢复原始算法的保证。在两个基准推理数据集上的实验表明,DCF在保持可靠性保证的同时,实现了高达141%的声明保留率的提高,代表着朝着可靠的一致性LLM系统迈出的重要一步。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在多步推理过程中产生幻觉,导致事实性错误的问题。现有的一致性事实性(Coherent Factuality)方法虽然能够通过依赖图联合验证声明,但其不可微性导致需要手工设计评分器。这些评分器在高可靠性要求下,会过度过滤掉大量正确的声明,严重影响LLM的实用性。

核心思路:论文的核心思路是将不可微的一致性事实性算法进行可微松弛,使其能够通过梯度下降等优化方法进行端到端训练。通过可微化,可以学习到更精确的评分器,从而在保证可靠性的前提下,最大限度地保留正确的声明。这种方法避免了手工设计评分器的局限性,并能够利用大规模数据集进行优化。

技术框架:DCF的技术框架主要包括以下几个步骤:1) 构建LLM推理过程的依赖关系图,表示声明之间的逻辑关系;2) 使用可微的代理函数近似原始的不可微操作,例如逻辑与、或等;3) 定义损失函数,鼓励模型在保证可靠性的前提下,最大化声明的保留率;4) 使用梯度下降等优化算法,端到端地训练评分器。

关键创新:论文最重要的技术创新点在于将不可微的一致性事实性算法转化为可微的形式。通过引入可微的代理函数,例如Sigmoid函数近似逻辑运算,使得整个推理和验证过程可以进行反向传播,从而可以使用梯度下降等方法优化评分器。这种可微化的方法使得可以利用大规模数据集进行训练,从而学习到更精确的评分器。

关键设计:DCF的关键设计包括:1) 使用Sigmoid函数近似逻辑与、或等操作,实现可微化;2) 设计损失函数,平衡可靠性和声明保留率;3) 使用合适的优化算法,例如Adam,进行训练;4) 通过调整超参数,例如可靠性水平,来控制模型的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DCF在两个基准推理数据集上,相对于现有方法,实现了显著的性能提升。在保持可靠性保证的前提下,DCF的声明保留率提高了高达141%。这表明DCF能够更有效地利用LLM的推理能力,同时避免产生幻觉。

🎯 应用场景

该研究成果可应用于需要高可靠性的LLM应用场景,例如医疗诊断、金融分析、法律咨询等。通过提高LLM推理的事实性和可靠性,可以减少错误信息的传播,提高决策的准确性,并增强用户对LLM的信任。未来,该技术可以进一步扩展到其他类型的推理任务和LLM模型。

📄 摘要(原文)

Large Language Models (LLMs) frequently hallucinate, limiting their reliability in critical applications. Conformal Prediction (CP) addresses this by calibrating error rates on held-out data to provide statistically valid confidence guarantees. Recent work extends CP to LLM factuality to filter out risky claims, ensuring that hallucination rates remain below a user-specified level (e.g., 10%). While prior methods treat claims independently, Coherent Factuality extends to multi-step reasoning by representing outputs as dependency graphs and jointly validating claims with their logical ancestors. A key limitation is that Coherent Factuality is not differentiable, requiring hand-crafted scorers that at high reliability levels remove nearly 60% of true claims. We introduce Differentiable Coherent Factuality (DCF), a fully differentiable relaxation that enables learning improved scorers while provably recovering the original algorithm's guarantees. Experiments on two benchmark reasoning datasets demonstrate DCF achieves up to 141% improvement in claim retention while maintaining reliability guarantees, representing a significant step towards reliable conformal LLM systems.