FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

📄 arXiv: 2606.06547v1 📥 PDF

作者: Haoyu Huang, Linlin Yang, Sheng Xu, Boyu Liu, Guodong Guo, Zhongqian Fu, Hang Zhou, Baochang Zhang

分类: cs.LG, cs.AI

发布日期: 2026-06-04

备注: Accepted as a poster at the 43rd International Conference on Machine Learning (ICML 2026)


💡 一句话要点

提出FAIR-Calib以解决扩散大语言模型的量化不稳定性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散大语言模型 后训练量化 量化稳定性 模型校准 自然语言处理

📋 核心要点

  1. 现有的后训练量化方法在处理扩散大语言模型时,容易导致早期决策的脆弱性和不稳定性。
  2. 本文提出的FAIR-Calib框架通过两阶段校准,优先保护脆弱的前沿状态,避免了昂贵的全流程扩散回滚。
  3. 实验结果显示,FAIR-Calib在多个基准测试中显著降低了决策翻转的发生,提升了模型的稳定性。

📝 摘要(中文)

扩散大语言模型(dLLMs)通过迭代方式精炼标记,但早期决策存在脆弱性,导致“稳定性滞后”。本文揭示了后训练量化(PTQ)误差容易翻转这些边界决策,并提出了前沿感知不稳定性重加权校准(FAIR-Calib),这是一个两阶段的PTQ框架。第一阶段通过全精度教师估计位置先验,结合前沿命中和掩蔽阶段的可靠性。第二阶段通过最小化重加权的隐藏状态均方误差进行分层校准,有效保护脆弱的前沿状态。实验结果表明,FAIR-Calib在LLaDA和Dream(W4A4)等基准上显著优于现有方法,减少了前沿决策翻转和后承诺不匹配。

🔬 方法详解

问题定义:本文旨在解决扩散大语言模型在后训练量化过程中出现的决策不稳定性问题,现有方法在处理边界决策时容易导致错误翻转。

核心思路:FAIR-Calib通过引入前沿感知和不稳定性重加权的校准方法,优先保护脆弱的决策状态,从而提高模型的量化稳定性。

技术框架:FAIR-Calib框架分为两个阶段:第一阶段使用全精度教师模型估计位置先验,第二阶段进行分层校准,最小化重加权的隐藏状态均方误差。

关键创新:最重要的创新在于提出了前沿感知的不稳定性重加权校准方法,能够有效减少决策翻转,与传统方法相比,提供了更为精确的校准机制。

关键设计:在损失函数设计上,采用重加权的隐藏状态均方误差,确保脆弱状态得到优先保护,同时避免了昂贵的全流程扩散回滚过程。该方法在多个层次上进行校准,提升了整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FAIR-Calib在LLaDA和Dream(W4A4)基准测试中均显著优于现有最先进的方法,减少了前沿决策翻转的发生率,并有效抑制了后承诺不匹配,提升幅度达到XX%。

🎯 应用场景

FAIR-Calib的研究成果具有广泛的应用潜力,特别是在需要高精度和稳定性的自然语言处理任务中,如对话系统、文本生成和机器翻译等领域。通过提高量化模型的稳定性,该方法能够有效提升模型在实际应用中的表现和可靠性。

📄 摘要(原文)

Diffusion Large Language Models (dLLMs) refine tokens iteratively but commit them irreversibly, leading to a "stability lag" where early decisions remain fragile even after being written. We reveal that Post-Training Quantization (PTQ) error easily flips these borderline decisions at the write frontier, which are then permanently locked in and amplified. To address this, we propose Frontier-Aware Instability-Reweighted Calibration (FAIR-Calib), a two-stage PTQ framework for dLLMs. Stage I probes a full-precision teacher to estimate a position prior that combines frontier hits and masked-stage reliability. Stage II performs off-policy, layer-wise calibration by minimizing a reweighted hidden-state MSE, effectively prioritizing the protection of fragile frontier states without requiring expensive end-to-end diffusion rollouts. We further theoretically justify our weighted objective as a surrogate for output KL divergence. Empirically, FAIR-Calib consistently outperforms state-of-the-art baselines on LLaDA and Dream (W4A4), significantly reducing frontier decision flips and suppressing post-commit mismatches across diverse benchmarks.