A Reproducible Optimisation Protocol for Calibrating Prompt-Based Large Language Model Workflows in Evidence Synthesis

📄 arXiv: 2605.06937v1 📥 PDF

作者: Teo Susnjak

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

提出一种基于提示词工程的可复现优化协议,以提升大语言模型在证据合成任务中的表现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 提示词工程 证据合成 可复现研究 自动化校准 DSPy 科学文档处理

📋 核心要点

  1. 针对证据合成任务中提示词设计缺乏标准化与可复现性的挑战,现有方法难以保证模型输出的稳定性和科学严谨性。
  2. 提出一种解耦式优化协议,将任务逻辑与提示词框架分离,利用反射LLM引导学生LLM进行自动化提示词校准与优化。
  3. 实验表明该协议能有效提升小参数模型在特定科学任务上的表现,并提供可追溯的制品,增强了科研工作的透明度与可重复性。

📝 摘要(中文)

本文介绍了一种用于结构化证据合成任务中大语言模型(LLM)提示词的标准化校准工作流。该方法将科学任务的定义规则与用于构建和应用这些规则的可变提示词框架(prompt harness)进行解耦。通过在标注参考数据和明确的任务指标上对提示词框架进行优化,并将校准后的工作流保存为包含规范、指标、设置及评估轨迹的可审查制品。文中以DSPy和GEPA工具为例展示了该协议,其底层逻辑适用于支持结构化任务定义、指标引导搜索及制品复用的其他框架。研究以标题和摘要筛选作为验证案例,利用较小的学生LLM执行科学任务,并由较大的反射LLM引导优化过程,展示了编译、制品闭环及优化预算对模型性能的影响。

🔬 方法详解

问题定义:在证据合成等高精度科学任务中,提示词(Prompt)的构建往往依赖人工经验,缺乏系统性的优化与验证流程,导致模型表现不稳定且难以复现,限制了LLM在科研领域的可靠应用。

核心思路:引入“解耦”设计思想,将科学任务的逻辑规则与提示词框架分离。通过引入“学生-教师”架构,利用较小的学生模型执行任务,并由较大的反射模型(Reflection LLM)根据标注数据和任务指标对提示词进行迭代优化,实现提示词的自动化校准。

技术框架:流程包含任务定义模块、提示词优化引擎(基于DSPy/GEPA)、评估指标计算模块以及制品存档系统。系统通过闭环反馈机制,不断调整提示词框架以最小化任务指标误差,最终输出包含完整元数据的可复现制品。

关键创新:实现了提示词工程的“制品化(Artefact-based)”管理,将提示词优化过程转化为可审计、可复现的科学实验流程,而非黑盒式的Prompt调整。

关键设计:采用基于指标引导的搜索策略,通过反射LLM对学生模型的输出进行评估与修正,并量化了优化预算(Optimization Budget)对模型性能的影响,确保在有限计算资源下实现性能的最优配置。

🖼️ 关键图片

img_0

📊 实验亮点

研究以标题和摘要筛选作为基准任务,验证了该协议的有效性。实验结果显示,通过反射LLM引导的优化过程,能够显著提升较小规模学生模型在复杂科学任务中的准确率。此外,该工作量化了优化预算与模型性能之间的关系,证明了在受限资源下通过系统化校准可实现性能的显著增益,并成功构建了可追溯、可复用的工作流制品。

🎯 应用场景

该方法主要应用于系统综述、循证医学、文献计量学等需要高精度证据合成的领域。通过提供可复现的自动化工作流,该研究能显著降低科研人员在处理大规模文献筛选时的手动负担,并确保研究结论的透明度与科学可信度,未来可扩展至法律文档分析、合规性审查等对准确性要求极高的结构化文本处理场景。

📄 摘要(原文)

This methods article presents a reproducible calibration workflow for prompt-based large language models (LLMs) in structured evidence-synthesis tasks. The method separates the rules that define the scientific task from the mutable prompt harness that frames and applies them. It optimises that harness against labelled or reference examples and an explicit task metric, then preserves the calibrated workflow as an inspectable artefact with its specification, metric, settings, and evaluation traces. The example code instantiates the protocol with DSPy and GEPA tools, but the underlying logic can transfer to other prompt-optimisation frameworks that support structured task definitions, metric-guided search, and artefact reuse. Title and abstract screening is the worked validation case because it provides labelled benchmark data and clear evaluation metrics. The demonstrated workflow uses a smaller student LLM for performing the scientific task execution and a larger reflection LLM to steer the prompt optimisation process during calibration. This work shows compilation, artefact round-tripping, and how optimisation budget affects a smaller student model.