HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning

📄 arXiv: 2605.13536v1 📥 PDF

作者: Qingyun Zou, Feng Yu, Hongshi Tan, Yao Chen, Bingsheng He, WengFai Wong

分类: cs.LG, cs.AI

发布日期: 2026-05-13


💡 一句话要点

HLS-Seek:基于代理比较奖励强化学习的高层次综合QoR感知代码生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 高层次综合 强化学习 代码生成 质量优化 代理模型

📋 核心要点

  1. 现有基于LLM的HLS方法侧重于功能正确性,忽略了代码结构和编译指示配置对QoR(延迟和资源利用率)的关键影响。
  2. HLS-Seek利用强化学习只需要候选方案之间的相对比较,使用比较代理奖励模型替代昂贵的综合环内强化学习。
  3. HLS-Seek通过不确定性感知的MC dropout切换,选择性地使用真实综合进行代理模型更新,实现了更快的训练和更好的QoR。

📝 摘要(中文)

本文提出HLS-Seek,一个QoR感知的NL-to-HLS框架,通过比较代理奖励模型替代昂贵的综合环内强化学习,实现了99.53%的Pareto支配精度。为了防止奖励利用,引入了不确定性感知的蒙特卡洛(MC) dropout切换,选择性地调用真实的Vitis HLS综合来处理低置信度的候选者,并在线更新代理模型,从而创建一个自我改进的奖励系统。HLS-Seek在HLS-eval上实现了81.5%的语法正确率pass@1和81.4%的Func@5,超越了GPT-5.1和其他前沿模型,同时比真实奖励强化学习快8.5倍的训练速度。在QoR评估中,HLS-Seek在30个内核中的16个上实现了最低的延迟,并在9个内核上Pareto支配了HLS特定的基线。

🔬 方法详解

问题定义:现有基于LLM的HLS方法在生成硬件描述时,主要关注功能正确性,而忽略了生成代码的质量(QoR),即延迟和资源利用率。直接使用综合结果作为奖励信号进行强化学习训练成本高昂,效率低下。

核心思路:HLS-Seek的核心思想是利用强化学习并不需要绝对的综合结果,只需要候选方案之间的相对比较。因此,可以使用一个代理模型来预测不同代码方案的QoR相对优劣,从而避免在强化学习循环中频繁调用耗时的真实综合过程。

技术框架:HLS-Seek框架主要包含以下几个模块:1) 代码生成器:基于LLM生成候选HLS代码;2) 代理奖励模型:预测候选代码的QoR相对优劣;3) 强化学习Agent:根据代理奖励模型的反馈,优化代码生成策略;4) 不确定性感知的MC dropout切换:根据代理模型的不确定性,选择性地调用真实综合进行验证和代理模型更新。

关键创新:HLS-Seek的关键创新在于使用比较代理奖励模型替代真实的综合过程,从而显著降低了强化学习的训练成本。此外,引入了不确定性感知的MC dropout切换机制,能够有效地平衡代理模型的准确性和训练效率,防止奖励利用。

关键设计:代理奖励模型使用神经网络进行训练,输入是HLS代码,输出是QoR的预测值。损失函数基于候选代码之间的相对QoR差异进行设计,鼓励模型预测正确的相对排序。MC dropout用于估计代理模型预测的不确定性,当不确定性较高时,则调用真实的Vitis HLS进行综合,并将结果用于在线更新代理模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HLS-Seek在HLS-eval数据集上取得了显著的成果,语法正确率pass@1达到81.5%,Func@5达到81.4%,超越了GPT-5.1等模型。在QoR评估中,HLS-Seek在30个内核中的16个上实现了最低的延迟,并在9个内核上Pareto支配了HLS特定的基线,同时训练速度比真实奖励强化学习快8.5倍。

🎯 应用场景

HLS-Seek可应用于自动化的硬件加速器设计流程,帮助开发者快速生成高性能、低功耗的硬件实现。该方法能够显著降低HLS代码优化的时间和成本,加速领域专用架构的开发,并提升嵌入式系统和数据中心应用的性能。

📄 摘要(原文)

High-Level Synthesis (HLS) compiles algorithmic C/C++ descriptions into hardware, with Quality of Results (QoR) -- latency and resource utilization -- critically governed by pragma configurations and code structure. Existing LLM-based HLS approaches train for functional correctness but ignore QoR entirely. We observe that reinforcement learning (RL) for HLS does not require absolute synthesis results -- only relative comparisons between candidates. Based on this insight, we propose \textbf{HLS-Seek}, a QoR-aware NL-to-HLS framework that replaces expensive synthesis-in-the-loop RL with a comparative proxy reward model achieving 99.53\% Pareto-dominance accuracy. To prevent reward hacking, we introduce \textit{uncertainty-aware Monte Carlo (MC) dropout switching} that selectively invokes real Vitis HLS synthesis for low-confidence candidates and online updates the proxy, creating a self-improving reward system. HLS-Seek achieves 81.5\% syntax correctness pass@1 and 81.4\% Func@5 on HLS-eval with only 7B parameters, surpassing GPT-5.1 and other frontier models while achieving 8.5$\times$ faster training than real-reward RL. On QoR evaluation, HLS-Seek achieves the lowest latency on 16/30 kernels and Pareto-dominates HLS-specific baselines on 9 kernels.