DiffBench Meets DiffAgent: End-to-End LLM-Driven Diffusion Acceleration Code Generation
作者: Jiajun jiao, Haowei Zhu, Puyuan Yang, Jianghui Wang, Ji Liu, Ziqiong Liu, Dong Li, Yuejian Fang, Junhai Yong, Bin Wang, Emad Barsoum
分类: cs.CV
发布日期: 2026-01-06
备注: Accepted to AAAI 2026
💡 一句话要点
提出DiffAgent,通过LLM驱动的端到端代码生成加速扩散模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型加速 代码生成 大型语言模型 自动优化 遗传算法
📋 核心要点
- 扩散模型推理计算开销大,阻碍实际应用,如何有效结合多种加速技术是挑战。
- DiffAgent利用LLM自动生成加速代码,通过闭环优化和遗传算法提升性能。
- DiffBench提供全面评估,实验证明DiffAgent优于现有LLM,能有效加速扩散模型。
📝 摘要(中文)
扩散模型在图像和视频生成方面取得了显著成功。然而,其固有的多步推理过程带来了巨大的计算开销,阻碍了实际部署。加速扩散模型至关重要,但如何结合多种模型加速技术仍然是一个重大挑战。为了解决这个问题,我们引入了一个由大型语言模型(LLM)驱动的框架,用于自动加速代码生成和评估。首先,我们提出了DiffBench,这是一个全面的基准,它实现了跨不同扩散架构、优化组合和部署场景的三阶段自动评估流程。其次,我们提出了DiffAgent,一个为任意扩散模型生成最佳加速策略和代码的智能体。DiffAgent采用闭环工作流程,其中规划组件和调试组件迭代地改进代码生成组件的输出,而遗传算法从执行环境中提取性能反馈以指导后续的代码改进。我们详细解释了DiffBench的构建和DiffAgent的底层设计原则。大量的实验表明,DiffBench可以对生成的代码进行彻底的评估,并且DiffAgent在生成有效的扩散加速策略方面明显优于现有的LLM。
🔬 方法详解
问题定义:扩散模型虽然在图像和视频生成领域表现出色,但其多步推理过程导致计算成本高昂,难以实际部署。现有方法缺乏有效结合多种加速技术的方案,且人工设计加速策略耗时耗力。因此,如何自动生成并优化扩散模型的加速代码,降低计算开销,是本文要解决的核心问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)的强大代码生成能力,构建一个智能体(DiffAgent),使其能够自动探索和生成扩散模型的加速代码。通过闭环反馈和遗传算法,DiffAgent能够不断优化生成的代码,从而找到最佳的加速策略。这种方法旨在减少人工干预,提高加速效率,并能够适应不同的扩散模型架构。
技术框架:DiffAgent框架包含三个主要组件:代码生成组件、规划组件和调试组件。代码生成组件负责根据扩散模型的结构和目标加速策略生成初始代码。规划组件负责制定加速策略,例如选择合适的优化方法和参数。调试组件负责检测和修复代码中的错误。此外,框架还包含一个遗传算法模块,用于从执行环境中提取性能反馈,并指导代码生成组件进行后续的代码改进。DiffBench则提供了一个三阶段的自动评估流程,用于评估生成的代码在不同扩散架构、优化组合和部署场景下的性能。
关键创新:本文的关键创新在于提出了一个端到端的LLM驱动的扩散模型加速代码生成框架。DiffAgent能够自动生成、评估和优化加速代码,无需人工干预。此外,DiffAgent还采用了闭环反馈和遗传算法,使其能够不断学习和改进,从而找到最佳的加速策略。DiffBench则提供了一个全面的评估平台,用于验证生成的代码的有效性。
关键设计:DiffAgent的关键设计包括:(1) 使用LLM作为代码生成器,利用其强大的代码理解和生成能力;(2) 采用闭环反馈机制,通过执行环境的性能反馈指导代码改进;(3) 使用遗传算法优化加速策略,自动探索最佳的优化组合;(4) DiffBench提供全面的评估指标,包括加速比、内存占用和生成质量等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DiffAgent在生成有效的扩散加速策略方面明显优于现有的LLM。DiffBench提供了一个全面的评估平台,可以对生成的代码进行彻底的评估。具体性能数据未知,但论文强调DiffAgent能够显著提升扩散模型的加速效果。
🎯 应用场景
该研究成果可应用于各种需要加速扩散模型的场景,例如实时图像/视频生成、移动设备上的图像处理、以及需要低延迟响应的应用。通过自动生成和优化加速代码,可以显著降低计算成本,提高用户体验,并推动扩散模型在更广泛领域的应用。
📄 摘要(原文)
Diffusion models have achieved remarkable success in image and video generation. However, their inherently multiple step inference process imposes substantial computational overhead, hindering real-world deployment. Accelerating diffusion models is therefore essential, yet determining how to combine multiple model acceleration techniques remains a significant challenge. To address this issue, we introduce a framework driven by large language models (LLMs) for automated acceleration code generation and evaluation. First, we present DiffBench, a comprehensive benchmark that implements a three stage automated evaluation pipeline across diverse diffusion architectures, optimization combinations and deployment scenarios. Second, we propose DiffAgent, an agent that generates optimal acceleration strategies and codes for arbitrary diffusion models. DiffAgent employs a closed-loop workflow in which a planning component and a debugging component iteratively refine the output of a code generation component, while a genetic algorithm extracts performance feedback from the execution environment to guide subsequent code refinements. We provide a detailed explanation of the DiffBench construction and the design principles underlying DiffAgent. Extensive experiments show that DiffBench offers a thorough evaluation of generated codes and that DiffAgent significantly outperforms existing LLMs in producing effective diffusion acceleration strategies.