Knowledge Boundary Probing and Demand-Guided Intervention for LLM-Based Power System Code Generation

作者: Hui Wu, Xiaoyang Wang, Zhong Fan

分类: cs.SE, cs.CL, eess.SY

发布日期: 2026-05-29

备注: 43 pages, 12 figures, includes supplementary material

💡 一句话要点

提出PowerCodeBench与知识边界干预方法，提升LLM在电力系统代码生成中的可靠性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电力系统 代码生成 API知识 知识边界 文档注入 基准测试

📋 核心要点

现有LLM在电力系统代码生成中面临API知识边界错误，导致可靠性问题，限制了本地部署。
提出PowerCodeBench基准测试和边界感知干预方法，通过探测API知识边界并注入文档来提升LLM性能。
实验表明，该干预方法显著提升了开源LLM和商业API的准确率，使得开源模型性能可媲美商业模型。

📝 摘要（中文）

大型语言模型（LLM）越来越多地被用于自动化电力系统分析，但出于保密、监管、可重复性和成本原因，许多公用事业和能源研究实验室需要在本地部署。这使得开源模型的可靠性成为一个部署问题。我们发现，电力系统代码生成中的首次失败主要不是由推理引起的，而是由结构化的API知识边界错误引起的：幻觉函数名、误用参数以及版本化仿真库中处理不当的结果表。我们引入了PowerCodeBench，这是一个执行验证的基准生成器，它将自然语言操作员查询与pandapower代码和数值真值配对；一个L0-L3文档驱动的探测程序，用于测量每个模型的API知识配置文件；以及一个边界感知干预，它结合了查询侧API需求估计与有针对性的主动文档注入和路由反应式校正。在一个2000个任务的冻结版本上，我们评估了十个开源LLM（1.5B-480B参数）和四个商业中端API。干预将每个评估的至少7B参数的开源模型和每个商业API的准确率提高了32到56个点。70B-120B范围内的开源模型与商业中端准确率范围相匹配，而Llama-3.1-405B和Qwen3-Coder-480B领先。

🔬 方法详解

问题定义：论文旨在解决LLM在电力系统代码生成任务中，由于缺乏对特定领域API的准确理解和使用，导致代码生成失败的问题。现有方法通常依赖于通用知识，无法有效处理电力系统仿真库中版本化的API函数、参数和结果表，从而产生幻觉函数名、参数误用等错误。

核心思路：论文的核心思路是通过主动探测LLM的API知识边界，识别其薄弱环节，然后通过有针对性的文档注入和错误纠正，增强LLM对特定API的理解和使用能力。这种方法避免了昂贵的微调，并能在部署时动态调整，提高LLM的可靠性。

技术框架：整体框架包含三个主要部分：PowerCodeBench基准测试生成器、API知识探测程序和边界感知干预模块。PowerCodeBench用于生成包含自然语言查询、pandapower代码和数值真值的测试用例。API知识探测程序通过L0-L3级别的文档驱动探测，评估LLM对API的理解程度。边界感知干预模块则根据API需求估计，主动注入相关文档，并在运行时进行错误纠正。

关键创新：论文的关键创新在于提出了API知识边界探测和需求引导的干预方法。与传统的微调或通用提示工程不同，该方法专注于解决LLM在特定领域API知识上的不足，通过精准的文档注入和错误纠正，显著提升了代码生成的准确率和可靠性。

关键设计：API知识探测程序采用L0-L3分级探测，L0探测函数名是否存在，L1探测参数类型，L2探测参数取值范围，L3探测返回值类型。边界感知干预模块使用查询侧API需求估计，确定需要注入的文档，并采用路由反应式校正，根据错误类型选择合适的纠正策略。具体参数设置和损失函数未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该干预方法显著提升了开源LLM和商业API的准确率。对于至少7B参数的开源模型和每个商业API，准确率提高了32到56个百分点。70B-120B范围内的开源模型性能可与商业中端API相媲美，而Llama-3.1-405B和Qwen3-Coder-480B表现最佳。同时，该方法在保持完整上下文准确率上限的同时，降低了41%的提示token成本。

🎯 应用场景

该研究成果可应用于电力系统自动化分析、智能电网控制、能源系统建模与仿真等领域。通过提升LLM在电力系统代码生成方面的能力，可以降低开发成本，提高分析效率，加速电力系统的智能化升级。未来，该方法有望推广到其他领域，例如金融、医疗等，提升LLM在特定领域的应用价值。

📄 摘要（原文）

Large language models (LLMs) are increasingly used to automate power-system analysis, but many utilities and energy-research labs require on-premise serving for confidentiality, regulatory, reproducibility, and cost reasons. This makes the reliability of open-weight models a deployment issue. We show that first-pass failures in power-system code generation are dominated not by reasoning alone, but by structured API-knowledge boundary errors: hallucinated function names, misused parameters, and mishandled result tables in versioned simulation libraries. We introduce PowerCodeBench, an execution-validated benchmark generator that pairs natural-language operator queries with pandapower code and numerical ground truth; an L0-L3 documentation-driven probing procedure that measures per-model API knowledge profiles; and a boundary-aware intervention that combines query-side API demand estimation with targeted proactive documentation injection and routed reactive correction. On a 2,000-task frozen release, we evaluate ten open-weight LLMs (1.5B-480B parameters) and four commercial mid-tier APIs. The intervention improves every evaluated open-weight model of at least 7B parameters and every commercial API by 32 to 56 accuracy points. Open-weight models in the 70B-120B range match the commercial mid-tier accuracy range, while Llama-3.1-405B and Qwen3-Coder-480B lead the panel. The targeted prompts preserve the full-context accuracy ceiling while using 41% of the prompt-token cost. The result is an accuracy-side, deployment-time path toward reliable on-premise LLM assistance for grid-analysis workflows without fine-tuning or cloud inference.

Knowledge Boundary Probing and Demand-Guided Intervention for LLM-Based Power System Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理