Scaling Open-Weight Large Language Models for Hydropower Regulatory Information Extraction: A Systematic Analysis

📄 arXiv: 2511.11821v1 📥 PDF

作者: Hong-Jun Yoon, Faisal Ashraf, Thomas A. Ruggles, Debjani Singh

分类: cs.CL, cs.AI

发布日期: 2025-11-14

备注: 18 pages, zero figures, Preprint submitted to Environmental Modeling and Software


💡 一句话要点

针对水力发电监管信息抽取,系统分析了开放权重大型语言模型的性能与资源消耗。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 信息抽取 监管文档 水力发电 开放权重模型 资源性能映射 幻觉模式

📋 核心要点

  1. 现有方法在利用大型语言模型从监管文件中提取信息时,面临性能与计算资源之间的权衡挑战。
  2. 该研究通过系统评估不同规模的开放权重模型,旨在为监管信息抽取任务提供模型选择的经验指导。
  3. 实验结果表明,模型性能存在明显的参数规模阈值,并揭示了小型模型中存在的系统性幻觉模式。

📝 摘要(中文)

本文评估了七个开放权重模型(0.6B-70B参数)在水力发电许可文档上的信息抽取性能,旨在为实际部署提供经验指导。分析表明,存在一个明显的14B参数阈值,超过此阈值,验证方法从无效(F1 < 0.15)转变为可行(F1 = 0.64)。通过适当的验证,消费者可部署的模型可实现64%的F1分数,而较小的模型则停滞在51%。大型模型接近77%的F1分数,但需要企业级基础设施。我们发现了一种系统性的幻觉模式,其中完美召回率表明小型模型的抽取失败而非成功。我们的研究建立了首个针对监管环境中开放权重信息抽取的综合资源-性能映射,从而能够进行基于证据的模型选择。这些结果为水力发电合规性提供了直接价值,同时为参数缩放效应提供了见解,这些见解可以推广到各种信息抽取任务。

🔬 方法详解

问题定义:论文旨在解决水力发电监管文档中信息抽取的问题。现有方法在利用大型语言模型时,面临性能和计算资源之间的权衡。小型模型可能无法有效提取信息,而大型模型则需要大量的计算资源,实际部署成本高昂。因此,需要确定不同规模模型的性能表现,为实际应用提供指导。

核心思路:论文的核心思路是通过系统评估不同规模的开放权重大型语言模型在水力发电监管文档上的信息抽取性能,建立资源-性能映射。通过分析不同模型的F1分数、幻觉模式等指标,确定模型规模与性能之间的关系,为实际部署提供依据。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择不同规模的开放权重大型语言模型(0.6B-70B参数);2) 构建水力发电许可文档数据集;3) 使用不同模型进行信息抽取;4) 评估模型的性能,包括F1分数、召回率等指标;5) 分析模型的幻觉模式;6) 建立资源-性能映射,为模型选择提供指导。

关键创新:该研究的关键创新在于建立了首个针对监管环境中开放权重信息抽取的综合资源-性能映射。通过系统分析不同规模模型的性能表现,揭示了模型规模与性能之间的关系,为实际部署提供了依据。此外,该研究还发现了小型模型中存在的系统性幻觉模式,为模型选择提供了重要的参考。

关键设计:论文的关键设计包括:1) 选择具有代表性的开放权重大型语言模型,覆盖不同规模;2) 构建高质量的水力发电许可文档数据集;3) 使用标准的评估指标(如F1分数、召回率)评估模型性能;4) 设计实验分析模型的幻觉模式,例如通过观察完美召回率的情况来判断是否存在幻觉。

📊 实验亮点

实验结果表明,存在一个明显的14B参数阈值,超过此阈值,验证方法从无效(F1 < 0.15)转变为可行(F1 = 0.64)。消费者可部署的模型可实现64%的F1分数,而大型模型接近77%的F1分数。研究还发现小型模型存在系统性幻觉,完美召回率反而指示抽取失败。

🎯 应用场景

该研究成果可直接应用于水力发电行业的合规性检查,帮助快速准确地从监管文档中提取关键信息,降低人工成本,提高工作效率。此外,该研究提出的资源-性能映射方法,可以推广到其他监管领域的信息抽取任务中,具有广泛的应用前景。

📄 摘要(原文)

Information extraction from regulatory documents using large language models presents critical trade-offs between performance and computational resources. We evaluated seven open-weight models (0.6B-70B parameters) on hydropower licensing documentation to provide empirical deployment guidance. Our analysis identified a pronounced 14B parameter threshold where validation methods transition from ineffective (F1 $<$ 0.15) to viable (F1 = 0.64). Consumer-deployable models achieve 64\% F1 through appropriate validation, while smaller models plateau at 51\%. Large-scale models approach 77\% F1 but require enterprise infrastructure. We identified systematic hallucination patterns where perfect recall indicates extraction failure rather than success in smaller models. Our findings establish the first comprehensive resource-performance mapping for open-weight information extraction in regulatory contexts, enabling evidence-based model selection. These results provide immediate value for hydropower compliance while contributing insights into parameter scaling effects that generalize across information extraction tasks.