CFDLLMBench: A Benchmark Suite for Evaluating Large Language Models in Computational Fluid Dynamics

作者: Nithin Somasekharan, Ling Yue, Yadi Cao, Weichao Li, Patrick Emami, Pochinapeddi Sai Bhargav, Anurag Acharya, Xingyu Xie, Shaowu Pan

分类: cs.CL, cs.AI

发布日期: 2025-09-19 (更新: 2025-10-10)

🔗 代码/项目: GITHUB

💡 一句话要点

CFDLLMBench：用于评估大语言模型在计算流体动力学中应用能力的基准套件

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 计算流体动力学 大语言模型 基准测试 科学计算 自动化 数值模拟 CFD 人工智能

📋 核心要点

现有方法难以自动化复杂物理系统的数值实验，尤其是在计算流体动力学（CFD）领域，该领域需要专业的知识和技能。
CFDLLMBench通过构建包含CFDQuery、CFDCodeBench和FoamBench三个组件的基准套件，全面评估LLM在CFD领域的应用能力。
该基准套件基于真实CFD实践，能够量化LLM在代码可执行性、解决方案准确性和数值收敛行为等方面的性能。

📝 摘要（中文）

大语言模型（LLM）在通用自然语言处理任务中表现出强大的性能，但它们在自动化复杂物理系统数值实验中的效用——这是一个关键且劳动密集型的环节——仍未被充分探索。计算流体动力学（CFD）作为过去几十年计算科学的主要工具，为评估LLM的科学能力提供了一个独特的挑战性试验台。我们推出了CFDLLMBench，这是一个包含三个互补组件的基准套件——CFDQuery、CFDCodeBench和FoamBench——旨在全面评估LLM在三个关键能力方面的表现：研究生水平的CFD知识、CFD的数值和物理推理，以及CFD工作流程的上下文相关实现。我们的基准基于真实的CFD实践，将详细的任务分类与严格的评估框架相结合，以提供可重现的结果，并量化LLM在代码可执行性、解决方案准确性和数值收敛行为方面的性能。CFDLLMBench为开发和评估LLM驱动的复杂物理系统数值实验自动化奠定了坚实的基础。代码和数据可在https://github.com/NREL-Theseus/cfdllmbench/获取。

🔬 方法详解

问题定义：论文旨在评估大语言模型（LLM）在计算流体动力学（CFD）领域的应用能力。现有方法在自动化CFD数值实验方面存在不足，因为CFD需要深厚的领域知识、数值推理能力和代码实现能力。人工进行CFD实验耗时耗力，且容易出错。

核心思路：论文的核心思路是构建一个全面的基准套件，该套件能够系统地评估LLM在CFD领域的关键能力。通过设计不同类型的任务，例如CFD知识问答、代码生成和工作流程实现，来考察LLM在不同方面的表现。这样可以更准确地了解LLM在CFD领域的优势和局限性。

技术框架：CFDLLMBench包含三个主要组件：CFDQuery、CFDCodeBench和FoamBench。CFDQuery用于评估LLM的CFD知识水平，通过问答形式进行。CFDCodeBench用于评估LLM的代码生成能力，要求LLM根据描述生成CFD代码片段。FoamBench用于评估LLM在实际CFD工作流程中的应用能力，例如设置仿真参数、运行仿真和分析结果。这三个组件相互补充，共同构成一个完整的评估体系。

关键创新：该论文的关键创新在于构建了一个专门针对CFD领域的LLM评估基准。与现有的通用LLM基准不同，CFDLLMBench更加关注LLM在科学计算领域的应用，并针对CFD的特点设计了相应的评估任务。这使得评估结果更加具有针对性和参考价值。

关键设计：在CFDQuery中，问题涵盖了CFD的基本概念、方程和数值方法。在CFDCodeBench中，代码生成任务涉及不同的CFD算法和模型。在FoamBench中，工作流程实现任务模拟了真实的CFD实验流程，例如使用OpenFOAM进行仿真。评估指标包括代码可执行性、解决方案准确性和数值收敛行为。

📊 实验亮点

CFDLLMBench基准套件的推出，为评估LLM在CFD领域的应用能力提供了一个标准化的平台。该基准套件包含多种类型的任务，能够全面评估LLM在CFD知识、代码生成和工作流程实现等方面的表现。通过该基准套件，可以量化LLM在代码可执行性、解决方案准确性和数值收敛行为等方面的性能。

🎯 应用场景

该研究成果可应用于自动化CFD实验流程，降低CFD研究的门槛，加速新设计和新技术的开发。通过利用LLM的强大能力，可以减少人工干预，提高CFD仿真的效率和准确性。此外，该基准套件可以促进LLM在科学计算领域的应用，推动人工智能与科学研究的深度融合。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated strong performance across general NLP tasks, but their utility in automating numerical experiments of complex physical system -- a critical and labor-intensive component -- remains underexplored. As the major workhorse of computational science over the past decades, Computational Fluid Dynamics (CFD) offers a uniquely challenging testbed for evaluating the scientific capabilities of LLMs. We introduce CFDLLMBench, a benchmark suite comprising three complementary components -- CFDQuery, CFDCodeBench, and FoamBench -- designed to holistically evaluate LLM performance across three key competencies: graduate-level CFD knowledge, numerical and physical reasoning of CFD, and context-dependent implementation of CFD workflows. Grounded in real-world CFD practices, our benchmark combines a detailed task taxonomy with a rigorous evaluation framework to deliver reproducible results and quantify LLM performance across code executability, solution accuracy, and numerical convergence behavior. CFDLLMBench establishes a solid foundation for the development and evaluation of LLM-driven automation of numerical experiments for complex physical systems. Code and data are available at https://github.com/NREL-Theseus/cfdllmbench/.

CFDLLMBench: A Benchmark Suite for Evaluating Large Language Models in Computational Fluid Dynamics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册