HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning

作者: Qingyun Zou, Feng Yu, Hongshi Tan, Yao Chen, Bingsheng He, WengFai Wong

分类: cs.LG, cs.AI

发布日期: 2026-05-13

💡 一句话要点

HLS-Seek：基于代理比较奖励强化学习的高层次综合QoR感知代码生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 高层次综合 强化学习 代码生成 质量优化 代理模型

📋 核心要点

现有基于LLM的HLS方法侧重于功能正确性，忽略了代码结构和编译指示配置对QoR（延迟和资源利用率）的关键影响。
HLS-Seek利用强化学习只需要候选方案之间的相对比较，使用比较代理奖励模型替代昂贵的综合环内强化学习。
HLS-Seek通过不确定性感知的MC dropout切换，选择性地使用真实综合进行代理模型更新，实现了更快的训练和更好的QoR。

📝 摘要（中文）

本文提出HLS-Seek，一个QoR感知的NL-to-HLS框架，通过比较代理奖励模型替代昂贵的综合环内强化学习，实现了99.53%的Pareto支配精度。为了防止奖励利用，引入了不确定性感知的蒙特卡洛(MC) dropout切换，选择性地调用真实的Vitis HLS综合来处理低置信度的候选者，并在线更新代理模型，从而创建一个自我改进的奖励系统。HLS-Seek在HLS-eval上实现了81.5%的语法正确率pass@1和81.4%的Func@5，超越了GPT-5.1和其他前沿模型，同时比真实奖励强化学习快8.5倍的训练速度。在QoR评估中，HLS-Seek在30个内核中的16个上实现了最低的延迟，并在9个内核上Pareto支配了HLS特定的基线。

🔬 方法详解

问题定义：现有基于LLM的HLS方法在生成硬件描述时，主要关注功能正确性，而忽略了生成代码的质量（QoR），即延迟和资源利用率。直接使用综合结果作为奖励信号进行强化学习训练成本高昂，效率低下。

核心思路：HLS-Seek的核心思想是利用强化学习并不需要绝对的综合结果，只需要候选方案之间的相对比较。因此，可以使用一个代理模型来预测不同代码方案的QoR相对优劣，从而避免在强化学习循环中频繁调用耗时的真实综合过程。

技术框架：HLS-Seek框架主要包含以下几个模块：1) 代码生成器：基于LLM生成候选HLS代码；2) 代理奖励模型：预测候选代码的QoR相对优劣；3) 强化学习Agent：根据代理奖励模型的反馈，优化代码生成策略；4) 不确定性感知的MC dropout切换：根据代理模型的不确定性，选择性地调用真实综合进行验证和代理模型更新。

关键创新：HLS-Seek的关键创新在于使用比较代理奖励模型替代真实的综合过程，从而显著降低了强化学习的训练成本。此外，引入了不确定性感知的MC dropout切换机制，能够有效地平衡代理模型的准确性和训练效率，防止奖励利用。

关键设计：代理奖励模型使用神经网络进行训练，输入是HLS代码，输出是QoR的预测值。损失函数基于候选代码之间的相对QoR差异进行设计，鼓励模型预测正确的相对排序。MC dropout用于估计代理模型预测的不确定性，当不确定性较高时，则调用真实的Vitis HLS进行综合，并将结果用于在线更新代理模型。

🖼️ 关键图片

📊 实验亮点

HLS-Seek在HLS-eval数据集上取得了显著的成果，语法正确率pass@1达到81.5%，Func@5达到81.4%，超越了GPT-5.1等模型。在QoR评估中，HLS-Seek在30个内核中的16个上实现了最低的延迟，并在9个内核上Pareto支配了HLS特定的基线，同时训练速度比真实奖励强化学习快8.5倍。

🎯 应用场景

HLS-Seek可应用于自动化的硬件加速器设计流程，帮助开发者快速生成高性能、低功耗的硬件实现。该方法能够显著降低HLS代码优化的时间和成本，加速领域专用架构的开发，并提升嵌入式系统和数据中心应用的性能。

📄 摘要（原文）

High-Level Synthesis (HLS) compiles algorithmic C/C++ descriptions into hardware, with Quality of Results (QoR) -- latency and resource utilization -- critically governed by pragma configurations and code structure. Existing LLM-based HLS approaches train for functional correctness but ignore QoR entirely. We observe that reinforcement learning (RL) for HLS does not require absolute synthesis results -- only relative comparisons between candidates. Based on this insight, we propose \textbf{HLS-Seek}, a QoR-aware NL-to-HLS framework that replaces expensive synthesis-in-the-loop RL with a comparative proxy reward model achieving 99.53\% Pareto-dominance accuracy. To prevent reward hacking, we introduce \textit{uncertainty-aware Monte Carlo (MC) dropout switching} that selectively invokes real Vitis HLS synthesis for low-confidence candidates and online updates the proxy, creating a self-improving reward system. HLS-Seek achieves 81.5\% syntax correctness pass@1 and 81.4\% Func@5 on HLS-eval with only 7B parameters, surpassing GPT-5.1 and other frontier models while achieving 8.5$\times$ faster training than real-reward RL. On QoR evaluation, HLS-Seek achieves the lowest latency on 16/30 kernels and Pareto-dominates HLS-specific baselines on 9 kernels.

HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理