Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance

作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram

分类: cs.LG, cs.AI, cs.AR

发布日期: 2024-07-11 (更新: 2025-02-21)

备注: Proceeding of ASP-DAC25

DOI: 10.1145/3658617.3697547

💡 一句话要点

提出DCOC：利用多智能体强化学习优化DNN加速器性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 DNN加速器 硬件软件协同优化 编译器优化 深度神经网络

📋 核心要点

现有DNN部署方法在硬件和软件协同优化方面存在不足，导致性能瓶颈。
DCOC采用MARL框架，通过三个actor-critic智能体协同优化硬件和软件配置。
实验结果表明，DCOC在吞吐量和优化时间上均优于现有方法，提升显著。

📝 摘要（中文）

本文提出了一种新颖的动态协同优化编译器（DCOC），它采用自适应的多智能体强化学习（MARL）框架来提高机器学习（ML）模型，特别是深度神经网络（DNN）在各种硬件平台上的映射效率。DCOC在MARL中集成了三个专门的actor-critic智能体，分别负责不同的优化方面：一个用于硬件，两个用于软件。这种合作策略形成了一种集成的硬件/软件协同优化方法，提高了DNN部署的精度和速度。通过专注于高置信度的配置，DCOC有效地减少了搜索空间，从而实现了优于现有方法的卓越性能。结果表明，DCOC在各种DNN模型上将吞吐量提高了高达37.95%，同时将优化时间缩短了高达42.2%，优于当前最先进的框架。

🔬 方法详解

问题定义：现有方法在将DNN模型映射到硬件加速器时，通常采用分离的硬件和软件优化策略，难以实现全局最优。此外，搜索空间巨大，优化时间长，效率低下。现有方法难以充分挖掘硬件潜力，导致性能瓶颈。

核心思路：DCOC的核心思路是采用多智能体强化学习（MARL）框架，将硬件和软件优化问题建模为多个智能体之间的协同决策过程。通过多个智能体共同探索和学习，实现硬件和软件配置的协同优化，从而提高DNN加速器的性能。

技术框架：DCOC包含三个actor-critic智能体：一个负责硬件优化，两个负责软件优化。硬件智能体负责选择合适的硬件配置参数，例如计算单元的数量和存储器的大小。软件智能体负责选择合适的软件优化策略，例如循环展开和数据重用。三个智能体通过共享奖励信号进行协同学习，共同优化DNN模型的映射方案。整体流程包括：模型输入、MARL优化、配置生成和性能评估。

关键创新：DCOC的关键创新在于其集成的硬件/软件协同优化方法。与现有方法相比，DCOC能够同时考虑硬件和软件的约束和依赖关系，从而实现更优的映射方案。此外，DCOC采用高置信度配置策略，有效减少了搜索空间，提高了优化效率。

关键设计：DCOC的奖励函数设计至关重要，它需要能够反映硬件和软件配置的综合性能。具体来说，奖励函数可以包括吞吐量、延迟和功耗等指标。此外，DCOC采用actor-critic算法进行智能体训练，actor网络负责选择动作，critic网络负责评估动作的价值。网络结构和参数设置需要根据具体的硬件平台和DNN模型进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DCOC在各种DNN模型上将吞吐量提高了高达37.95%，同时将优化时间缩短了高达42.2%，优于当前最先进的框架。DCOC在VGG16、ResNet50等经典模型上均取得了显著的性能提升，证明了其有效性和通用性。

🎯 应用场景

DCOC可应用于各种DNN加速器的设计和优化，例如自动驾驶、图像识别和自然语言处理等领域。通过DCOC，可以自动生成高效的DNN映射方案，从而提高加速器的性能和效率，降低功耗。该研究对于推动人工智能在边缘设备上的应用具有重要意义。

📄 摘要（原文）

This paper introduces a novel Dynamic Co-Optimization Compiler (DCOC), which employs an adaptive Multi-Agent Reinforcement Learning (MARL) framework to enhance the efficiency of mapping machine learning (ML) models, particularly Deep Neural Networks (DNNs), onto diverse hardware platforms. DCOC incorporates three specialized actor-critic agents within MARL, each dedicated to different optimization facets: one for hardware and two for software. This cooperative strategy results in an integrated hardware/software co-optimization approach, improving the precision and speed of DNN deployments. By focusing on high-confidence configurations, DCOC effectively reduces the search space, achieving remarkable performance over existing methods. Our results demonstrate that DCOC enhances throughput by up to 37.95% while reducing optimization time by up to 42.2% across various DNN models, outperforming current state-of-the-art frameworks.

Dynamic Co-Optimization Compiler: Leveraging Multi-Agent Reinforcement Learning for Enhanced DNN Accelerator Performance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理