AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization
作者: Shaoqiu Zhang, Zizhong Ding, Kaicheng Yang, Junyi Wu, Xianglong Yan, Xi Li, Bingnan Duan, Jianping Fang, Yulun Zhang
分类: cs.CV
发布日期: 2026-02-10
备注: Code will be released at https://github.com/Qiushao-E/AdaTSQ/
🔗 代码/项目: GITHUB
💡 一句话要点
AdaTSQ:通过时序敏感量化提升扩散Transformer的Pareto前沿
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散Transformer 训练后量化 时间敏感性 动态位宽分配 Fisher信息 图像生成 视频生成
📋 核心要点
- 现有扩散Transformer计算成本高昂,内存占用大,直接应用现有量化方法效果不佳,忽略了扩散过程的时间动态。
- AdaTSQ利用扩散Transformer的时间敏感性,提出Pareto感知的动态位宽分配和Fisher引导的时间校准机制。
- 实验表明,AdaTSQ在多个先进DiTs模型上显著优于SVDQuant和ViDiT-Q等现有方法,提升了效率和质量。
📝 摘要(中文)
扩散Transformer (DiTs) 已成为高保真图像和视频生成的先进骨干网络。然而,其巨大的计算成本和内存占用阻碍了在边缘设备上的部署。虽然训练后量化 (PTQ) 已被证明对大型语言模型 (LLMs) 有效,但由于忽略了扩散过程中固有的独特时间动态,直接将现有方法应用于 DiTs 会产生次优结果。本文提出了 AdaTSQ,一种新颖的 PTQ 框架,通过利用 DiTs 的时间敏感性来推动效率和质量的 Pareto 前沿。首先,我们提出了一种 Pareto 感知的时间步动态位宽分配策略。我们将量化策略搜索建模为一个约束路径寻找问题。我们利用由端到端重建误差引导的束搜索算法来动态地跨不同的时间步分配层级的位宽。其次,我们提出了一种 Fisher 引导的时间校准机制。它利用时间 Fisher 信息来优先考虑来自高度敏感时间步的校准数据,无缝地与基于 Hessian 的权重优化集成。在四个先进的 DiTs(例如,Flux-Dev、Flux-Schnell、Z-Image 和 Wan2.1)上的大量实验表明,AdaTSQ 显著优于最先进的方法,如 SVDQuant 和 ViDiT-Q。
🔬 方法详解
问题定义:论文旨在解决扩散Transformer(DiTs)模型在边缘设备部署时面临的计算成本高、内存占用大的问题。现有的训练后量化(PTQ)方法虽然在大型语言模型(LLMs)上表现良好,但直接应用于DiTs时效果不佳,主要原因是忽略了扩散过程固有的时间动态特性,导致量化策略无法适应不同时间步的需求。
核心思路:AdaTSQ的核心思路是充分利用DiTs模型对不同时间步的敏感性差异,通过动态调整量化策略,在保证生成质量的前提下,最大限度地降低计算成本和内存占用。具体来说,AdaTSQ通过Pareto感知的位宽分配策略和Fisher引导的时间校准机制,实现了对DiTs模型更精细化的量化。
技术框架:AdaTSQ框架主要包含两个核心模块:1) Pareto感知的timestep-dynamic位宽分配:将量化策略搜索建模为一个约束路径寻找问题,使用束搜索算法,根据端到端重建误差动态地为不同时间步的各层分配位宽。2) Fisher引导的时间校准:利用时间Fisher信息来确定对模型性能影响较大的时间步,并优先使用这些时间步的数据进行校准,同时结合Hessian-based权重优化,进一步提升量化模型的精度。
关键创新:AdaTSQ的关键创新在于其对扩散Transformer时间敏感性的建模和利用。传统的PTQ方法通常采用静态的量化策略,忽略了不同时间步对模型性能的影响差异。AdaTSQ通过Pareto感知的动态位宽分配和Fisher引导的时间校准,实现了对不同时间步的差异化处理,从而显著提升了量化模型的性能。
关键设计:在Pareto感知的位宽分配中,使用束搜索算法寻找最优的位宽分配方案,目标是在满足计算资源约束的前提下,最小化端到端重建误差。在Fisher引导的时间校准中,使用时间Fisher信息作为权重,对不同时间步的校准数据进行加权,从而优先考虑对模型性能影响较大的时间步。具体损失函数和网络结构细节未在摘要中详细说明,需要参考论文全文。
🖼️ 关键图片
📊 实验亮点
AdaTSQ 在四个先进的 DiTs 模型(Flux-Dev、Flux-Schnell、Z-Image 和 Wan2.1)上进行了广泛的实验,结果表明 AdaTSQ 显著优于 SVDQuant 和 ViDiT-Q 等最先进的方法。具体的性能数据和提升幅度需要在论文全文中查找,但摘要强调了 AdaTSQ 在效率和质量上的显著提升。
🎯 应用场景
AdaTSQ 的潜在应用领域包括移动设备上的高质量图像和视频生成、边缘计算环境下的 AI 绘画和视频编辑等。通过降低扩散Transformer模型的计算成本和内存占用,AdaTSQ 有助于将这些强大的生成模型部署到资源受限的设备上,从而实现更广泛的应用和更便捷的用户体验。未来,该技术可能促进实时图像处理、增强现实和虚拟现实等领域的发展。
📄 摘要(原文)
Diffusion Transformers (DiTs) have emerged as the state-of-the-art backbone for high-fidelity image and video generation. However, their massive computational cost and memory footprint hinder deployment on edge devices. While post-training quantization (PTQ) has proven effective for large language models (LLMs), directly applying existing methods to DiTs yields suboptimal results due to the neglect of the unique temporal dynamics inherent in diffusion processes. In this paper, we propose AdaTSQ, a novel PTQ framework that pushes the Pareto frontier of efficiency and quality by exploiting the temporal sensitivity of DiTs. First, we propose a Pareto-aware timestep-dynamic bit-width allocation strategy. We model the quantization policy search as a constrained pathfinding problem. We utilize a beam search algorithm guided by end-to-end reconstruction error to dynamically assign layer-wise bit-widths across different timesteps. Second, we propose a Fisher-guided temporal calibration mechanism. It leverages temporal Fisher information to prioritize calibration data from highly sensitive timesteps, seamlessly integrating with Hessian-based weight optimization. Extensive experiments on four advanced DiTs (e.g., Flux-Dev, Flux-Schnell, Z-Image, and Wan2.1) demonstrate that AdaTSQ significantly outperforms state-of-the-art methods like SVDQuant and ViDiT-Q. Our code will be released at https://github.com/Qiushao-E/AdaTSQ.