From Prompts to Performance: Evaluating LLMs for Task-based Parallel Code Generation

作者: Linus Bantel, Moritz Strack, Alexander Strack, Dirk Pflüger

分类: cs.PL, cs.AI, cs.DC

发布日期: 2026-02-28

💡 一句话要点

评估LLM在任务并行代码生成中的性能，探索提示工程对代码质量的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 并行代码生成 任务并行 OpenMP C++标准并行 HPX 提示工程 高性能计算

📋 核心要点

现有研究较少关注LLM生成高效并行程序的能力，尤其是在不同并行编程框架下的表现。
本文探索了使用不同类型的提示（自然语言、顺序代码、并行伪代码）指导LLM生成并行代码的方法。
实验评估了LLM在OpenMP、C++标准并行和HPX框架下生成代码的正确性和可扩展性，揭示了其优缺点。

📝 摘要（中文）

大型语言模型（LLM）在代码生成方面表现出强大的能力，但它们在创建高效并行程序方面的技能研究较少。本文探讨了LLM如何从三种输入提示生成基于任务的并行代码：自然语言问题描述、顺序参考实现和并行伪代码。我们重点关注三个编程框架：OpenMP Tasking、C++标准并行和异步多任务运行时HPX。每个框架为任务执行提供不同级别的抽象和控制。我们评估LLM生成的解决方案的正确性和可扩展性。我们的结果揭示了LLM在问题复杂性和框架方面的优势和劣势。最后，我们讨论了这些发现对于高性能和科学计算中未来LLM辅助开发的意义。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在生成任务并行代码方面的能力。现有的痛点在于，虽然LLM在通用代码生成方面表现出色，但其在生成高效、可扩展的并行代码方面的能力尚未得到充分研究，尤其是在不同并行编程框架下的表现。此外，如何有效地利用提示工程来指导LLM生成高质量的并行代码也是一个挑战。

核心思路：论文的核心思路是通过设计不同类型的提示（自然语言描述、顺序参考实现、并行伪代码）来引导LLM生成并行代码，并针对不同的并行编程框架（OpenMP Tasking、C++标准并行、HPX）进行评估。通过比较不同提示和框架下的生成结果，分析LLM的优势和劣势，从而为未来LLM辅助并行程序开发提供指导。

技术框架：整体流程包括：1) 设计不同类型的提示；2) 使用LLM生成并行代码；3) 在不同的并行编程框架下编译和运行生成的代码；4) 评估代码的正确性和可扩展性。主要模块包括提示生成模块、LLM代码生成模块、并行框架编译/运行模块和性能评估模块。

关键创新：论文的关键创新在于系统性地评估了LLM在生成任务并行代码方面的能力，并探讨了不同提示类型和并行编程框架对生成结果的影响。与现有方法相比，该研究更关注LLM在并行计算领域的应用，并提供了关于如何有效利用LLM进行并行程序开发的实践指导。

关键设计：论文的关键设计包括：1) 三种类型的提示：自然语言问题描述、顺序参考实现、并行伪代码；2) 三种并行编程框架：OpenMP Tasking、C++标准并行、HPX；3) 评估指标：代码的正确性和可扩展性。具体的参数设置和网络结构取决于所使用的LLM，论文中可能没有详细说明，属于LLM本身的设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在生成并行代码方面具有一定的潜力，但在问题复杂性和框架选择方面存在局限性。例如，对于某些问题，LLM可以生成正确且可扩展的OpenMP代码，但在C++标准并行或HPX框架下表现不佳。不同类型的提示对生成结果也有显著影响，例如，提供顺序参考实现可以帮助LLM生成更正确的并行代码。具体的性能数据和提升幅度需要参考论文原文。

🎯 应用场景

该研究成果可应用于高性能计算、科学计算等领域，通过LLM辅助生成并行代码，提高开发效率和程序性能。未来，可以进一步探索LLM在自动并行化、性能优化等方面的应用，推动高性能计算的智能化发展。该研究有助于降低并行编程的门槛，使更多开发者能够利用并行计算的优势。

📄 摘要（原文）

Large Language Models (LLM) show strong abilities in code generation, but their skill in creating efficient parallel programs is less studied. This paper explores how LLMs generate task-based parallel code from three kinds of input prompts: natural language problem descriptions, sequential reference implementations, and parallel pseudo code. We focus on three programming frameworks: OpenMP Tasking, C++ standard parallelism, and the asynchronous many-task runtime HPX. Each framework offers different levels of abstraction and control for task execution. We evaluate LLM-generated solutions for correctness and scalability. Our results reveal both strengths and weaknesses of LLMs with regard to problem complexity and framework. Finally, we discuss what these findings mean for future LLM-assisted development in high-performance and scientific computing.

From Prompts to Performance: Evaluating LLMs for Task-based Parallel Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理