Knowledge Boundary Probing and Demand-Guided Intervention for LLM-Based Power System Code Generation
作者: Hui Wu, Xiaoyang Wang, Zhong Fan
分类: cs.SE, cs.CL, eess.SY
发布日期: 2026-05-29
备注: 43 pages, 12 figures, includes supplementary material
💡 一句话要点
提出PowerCodeBench与知识边界干预方法,提升LLM在电力系统代码生成中的可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 电力系统 代码生成 API知识 知识边界 文档注入 基准测试
📋 核心要点
- 现有LLM在电力系统代码生成中面临API知识边界错误,导致可靠性问题,限制了本地部署。
- 提出PowerCodeBench基准测试和边界感知干预方法,通过探测API知识边界并注入文档来提升LLM性能。
- 实验表明,该干预方法显著提升了开源LLM和商业API的准确率,使得开源模型性能可媲美商业模型。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于自动化电力系统分析,但出于保密、监管、可重复性和成本原因,许多公用事业和能源研究实验室需要在本地部署。这使得开源模型的可靠性成为一个部署问题。我们发现,电力系统代码生成中的首次失败主要不是由推理引起的,而是由结构化的API知识边界错误引起的:幻觉函数名、误用参数以及版本化仿真库中处理不当的结果表。我们引入了PowerCodeBench,这是一个执行验证的基准生成器,它将自然语言操作员查询与pandapower代码和数值真值配对;一个L0-L3文档驱动的探测程序,用于测量每个模型的API知识配置文件;以及一个边界感知干预,它结合了查询侧API需求估计与有针对性的主动文档注入和路由反应式校正。在一个2000个任务的冻结版本上,我们评估了十个开源LLM(1.5B-480B参数)和四个商业中端API。干预将每个评估的至少7B参数的开源模型和每个商业API的准确率提高了32到56个点。70B-120B范围内的开源模型与商业中端准确率范围相匹配,而Llama-3.1-405B和Qwen3-Coder-480B领先。
🔬 方法详解
问题定义:论文旨在解决LLM在电力系统代码生成任务中,由于缺乏对特定领域API的准确理解和使用,导致代码生成失败的问题。现有方法通常依赖于通用知识,无法有效处理电力系统仿真库中版本化的API函数、参数和结果表,从而产生幻觉函数名、参数误用等错误。
核心思路:论文的核心思路是通过主动探测LLM的API知识边界,识别其薄弱环节,然后通过有针对性的文档注入和错误纠正,增强LLM对特定API的理解和使用能力。这种方法避免了昂贵的微调,并能在部署时动态调整,提高LLM的可靠性。
技术框架:整体框架包含三个主要部分:PowerCodeBench基准测试生成器、API知识探测程序和边界感知干预模块。PowerCodeBench用于生成包含自然语言查询、pandapower代码和数值真值的测试用例。API知识探测程序通过L0-L3级别的文档驱动探测,评估LLM对API的理解程度。边界感知干预模块则根据API需求估计,主动注入相关文档,并在运行时进行错误纠正。
关键创新:论文的关键创新在于提出了API知识边界探测和需求引导的干预方法。与传统的微调或通用提示工程不同,该方法专注于解决LLM在特定领域API知识上的不足,通过精准的文档注入和错误纠正,显著提升了代码生成的准确率和可靠性。
关键设计:API知识探测程序采用L0-L3分级探测,L0探测函数名是否存在,L1探测参数类型,L2探测参数取值范围,L3探测返回值类型。边界感知干预模块使用查询侧API需求估计,确定需要注入的文档,并采用路由反应式校正,根据错误类型选择合适的纠正策略。具体参数设置和损失函数未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该干预方法显著提升了开源LLM和商业API的准确率。对于至少7B参数的开源模型和每个商业API,准确率提高了32到56个百分点。70B-120B范围内的开源模型性能可与商业中端API相媲美,而Llama-3.1-405B和Qwen3-Coder-480B表现最佳。同时,该方法在保持完整上下文准确率上限的同时,降低了41%的提示token成本。
🎯 应用场景
该研究成果可应用于电力系统自动化分析、智能电网控制、能源系统建模与仿真等领域。通过提升LLM在电力系统代码生成方面的能力,可以降低开发成本,提高分析效率,加速电力系统的智能化升级。未来,该方法有望推广到其他领域,例如金融、医疗等,提升LLM在特定领域的应用价值。
📄 摘要(原文)
Large language models (LLMs) are increasingly used to automate power-system analysis, but many utilities and energy-research labs require on-premise serving for confidentiality, regulatory, reproducibility, and cost reasons. This makes the reliability of open-weight models a deployment issue. We show that first-pass failures in power-system code generation are dominated not by reasoning alone, but by structured API-knowledge boundary errors: hallucinated function names, misused parameters, and mishandled result tables in versioned simulation libraries. We introduce PowerCodeBench, an execution-validated benchmark generator that pairs natural-language operator queries with pandapower code and numerical ground truth; an L0-L3 documentation-driven probing procedure that measures per-model API knowledge profiles; and a boundary-aware intervention that combines query-side API demand estimation with targeted proactive documentation injection and routed reactive correction. On a 2,000-task frozen release, we evaluate ten open-weight LLMs (1.5B-480B parameters) and four commercial mid-tier APIs. The intervention improves every evaluated open-weight model of at least 7B parameters and every commercial API by 32 to 56 accuracy points. Open-weight models in the 70B-120B range match the commercial mid-tier accuracy range, while Llama-3.1-405B and Qwen3-Coder-480B lead the panel. The targeted prompts preserve the full-context accuracy ceiling while using 41% of the prompt-token cost. The result is an accuracy-side, deployment-time path toward reliable on-premise LLM assistance for grid-analysis workflows without fine-tuning or cloud inference.