Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance

📄 arXiv: 2407.08192v3 📥 PDF

作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram

分类: cs.LG, cs.AI, cs.AR

发布日期: 2024-07-11 (更新: 2025-02-21)

备注: Proceeding of ASP-DAC25

DOI: 10.1145/3658617.3697547


💡 一句话要点

提出DCOC:利用多智能体强化学习优化DNN加速器性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 DNN加速器 硬件软件协同优化 编译器优化 深度神经网络

📋 核心要点

  1. 现有DNN部署方法在硬件和软件协同优化方面存在不足,导致性能瓶颈。
  2. DCOC采用MARL框架,通过三个actor-critic智能体协同优化硬件和软件配置。
  3. 实验结果表明,DCOC在吞吐量和优化时间上均优于现有方法,提升显著。

📝 摘要(中文)

本文提出了一种新颖的动态协同优化编译器(DCOC),它采用自适应的多智能体强化学习(MARL)框架来提高机器学习(ML)模型,特别是深度神经网络(DNN)在各种硬件平台上的映射效率。DCOC在MARL中集成了三个专门的actor-critic智能体,分别负责不同的优化方面:一个用于硬件,两个用于软件。这种合作策略形成了一种集成的硬件/软件协同优化方法,提高了DNN部署的精度和速度。通过专注于高置信度的配置,DCOC有效地减少了搜索空间,从而实现了优于现有方法的卓越性能。结果表明,DCOC在各种DNN模型上将吞吐量提高了高达37.95%,同时将优化时间缩短了高达42.2%,优于当前最先进的框架。

🔬 方法详解

问题定义:现有方法在将DNN模型映射到硬件加速器时,通常采用分离的硬件和软件优化策略,难以实现全局最优。此外,搜索空间巨大,优化时间长,效率低下。现有方法难以充分挖掘硬件潜力,导致性能瓶颈。

核心思路:DCOC的核心思路是采用多智能体强化学习(MARL)框架,将硬件和软件优化问题建模为多个智能体之间的协同决策过程。通过多个智能体共同探索和学习,实现硬件和软件配置的协同优化,从而提高DNN加速器的性能。

技术框架:DCOC包含三个actor-critic智能体:一个负责硬件优化,两个负责软件优化。硬件智能体负责选择合适的硬件配置参数,例如计算单元的数量和存储器的大小。软件智能体负责选择合适的软件优化策略,例如循环展开和数据重用。三个智能体通过共享奖励信号进行协同学习,共同优化DNN模型的映射方案。整体流程包括:模型输入、MARL优化、配置生成和性能评估。

关键创新:DCOC的关键创新在于其集成的硬件/软件协同优化方法。与现有方法相比,DCOC能够同时考虑硬件和软件的约束和依赖关系,从而实现更优的映射方案。此外,DCOC采用高置信度配置策略,有效减少了搜索空间,提高了优化效率。

关键设计:DCOC的奖励函数设计至关重要,它需要能够反映硬件和软件配置的综合性能。具体来说,奖励函数可以包括吞吐量、延迟和功耗等指标。此外,DCOC采用actor-critic算法进行智能体训练,actor网络负责选择动作,critic网络负责评估动作的价值。网络结构和参数设置需要根据具体的硬件平台和DNN模型进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DCOC在各种DNN模型上将吞吐量提高了高达37.95%,同时将优化时间缩短了高达42.2%,优于当前最先进的框架。DCOC在VGG16、ResNet50等经典模型上均取得了显著的性能提升,证明了其有效性和通用性。

🎯 应用场景

DCOC可应用于各种DNN加速器的设计和优化,例如自动驾驶、图像识别和自然语言处理等领域。通过DCOC,可以自动生成高效的DNN映射方案,从而提高加速器的性能和效率,降低功耗。该研究对于推动人工智能在边缘设备上的应用具有重要意义。

📄 摘要(原文)

This paper introduces a novel Dynamic Co-Optimization Compiler (DCOC), which employs an adaptive Multi-Agent Reinforcement Learning (MARL) framework to enhance the efficiency of mapping machine learning (ML) models, particularly Deep Neural Networks (DNNs), onto diverse hardware platforms. DCOC incorporates three specialized actor-critic agents within MARL, each dedicated to different optimization facets: one for hardware and two for software. This cooperative strategy results in an integrated hardware/software co-optimization approach, improving the precision and speed of DNN deployments. By focusing on high-confidence configurations, DCOC effectively reduces the search space, achieving remarkable performance over existing methods. Our results demonstrate that DCOC enhances throughput by up to 37.95% while reducing optimization time by up to 42.2% across various DNN models, outperforming current state-of-the-art frameworks.