It's not the Language Model, it's the Tool: Deterministic Mediation for Scientific Workflows
作者: Marios Adamidis, Danae Katrisioti, Yannis Tzitzikas, Emmanuel Stratakis
分类: cs.AI
发布日期: 2026-05-13
备注: 18 pages, 4 figures, 2 appendices. Submitted to SETN 2026
💡 一句话要点
提出确定性中介模式,利用语言模型编排确定性工具,解决科学工作流中结果不可复现问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 科学工作流 可重复性 确定性工具 工具编排
📋 核心要点
- 现有语言模型在科学分析中存在结果不可复现的问题,同一查询可能产生不同的分析结果,影响研究可信度。
- 论文提出类型化中介模式,利用语言模型编排预定义的确定性工具,保证每次运行结果的一致性与可复现性。
- 实验表明,该方法在光致发光分析中,跨平台和多次运行均能产生相同结果,优于直接使用商业语言模型。
📝 摘要(中文)
语言模型可以生成令人信服的科学分析,但对相同数据重复生成无法保证相同的结果。研究人员可能重复相同的查询,却得到不同的拟合、峰值位置或分析过程,且难以判断哪个输出可信。我们提出了一种类型化的中介模式,其中模型编排确定性工具,而不是生成分析代码。每个工具都编码了一位研究人员针对特定仪器的精确程序,通过结构化访谈获得。模型选择调用哪个工具以及使用什么参数。工具产生结果。重复生成不会改变结果。我们通过在四个平台上运行相同的光致发光分析来评估这一主张,包括三个商业基础模型,每个平台用相同的提示运行四次。类型化工具在所有运行中产生相同的结果。商业平台要么在运行中数值输出和分析方法不同,要么无法在该任务上产生有效的结果。我们在两个仪器上部署了这种模式,为用户服务了大约六个月,获得了非常积极的用户反馈。这两种情况都非常具有挑战性:它们涉及专有的二进制格式和每个席位的许可软件,这迫使该工具与数据和它操作的仪器一起保留在本地基础设施上。我们认为,部署拓扑结构不仅仅是一种偏好,而是科学工具中介的结构性要求。最终的结果是一种实用的模式,用于在可重复性是强制性的科学工作流中部署语言模型,将分析时间从几周减少到几分钟,同时保证跨运行的相同输出。
🔬 方法详解
问题定义:论文旨在解决科学工作流中,使用大型语言模型(LLM)进行数据分析时结果不可复现的问题。现有方法直接使用LLM生成分析代码,由于LLM的随机性,即使输入相同的数据和提示,也可能得到不同的分析结果,这在需要严格可重复性的科学研究中是不可接受的。
核心思路:论文的核心思路是利用LLM作为编排器,而非直接生成分析代码。LLM负责选择合适的确定性工具,并传递参数,而具体的分析任务由预先定义好的、确定性的工具来完成。这样,即使LLM的选择过程存在一定的随机性,最终的分析结果仍然是可复现的。
技术框架:整体框架包含以下几个主要模块:1) LLM编排器:负责接收用户请求,并根据请求选择合适的工具和参数。2) 确定性工具库:包含一系列预先定义好的、针对特定科学仪器的分析工具,每个工具都对应一个研究人员的精确分析流程。3) 数据接口:负责将数据传递给选定的工具。4) 结果输出:将工具的分析结果返回给用户。整个流程的关键在于将LLM的随机性限制在工具选择和参数传递上,而具体的分析过程则由确定性工具保证。
关键创新:最重要的技术创新点在于将LLM的角色从代码生成器转变为工具编排器。与现有方法直接使用LLM生成分析代码不同,该方法利用LLM的理解能力和推理能力来选择合适的工具,并将具体的分析任务交给确定性工具来完成。这种方法既利用了LLM的灵活性,又保证了结果的可复现性。
关键设计:论文强调了工具的类型化,即每个工具都对应一个特定的科学仪器和分析流程。工具的参数通过结构化访谈获得,确保工具能够准确地模拟研究人员的分析流程。此外,论文还强调了部署拓扑结构的重要性,由于涉及到专有数据格式和授权软件,工具需要与数据和仪器部署在同一本地基础设施上。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的类型化工具在光致发光分析中,跨四个平台(包括三个商业基础模型)和多次运行均能产生完全相同的结果。相比之下,商业平台要么在数值输出和分析方法上存在差异,要么无法产生有效的结果。用户反馈表明,该方法将分析时间从几周缩短到几分钟,并保证了结果的可靠性。
🎯 应用场景
该研究成果可广泛应用于需要高可重复性的科学研究领域,例如材料科学、化学、生物学等。通过将语言模型与确定性工具相结合,可以显著缩短分析时间,提高研究效率,并保证结果的可靠性。该方法尤其适用于处理专有数据格式和使用授权软件的场景。
📄 摘要(原文)
Language models can produce convincing scientific analyses, but repeated generations on the same data do not guarantee the same result. A researcher may regenerate an identical query and receive a different fit, a different peak position or a different analysis procedure, without an obvious way to decide which output to trust. We propose typed mediation, a pattern in which the model orchestrates deterministic tools rather than generating analytical code. Each tool encodes one researcher's exact procedure for one instrument, ported through structured interviews. The model selects which tool to call and with what parameters. The tool produces the result. Regeneration does not change it. We evaluate this claim by running the same photoluminescence analysis on four platforms, including three commercial foundation models, four times each with the same prompt. The typed tool produces identical results across all runs. The commercial platforms either vary in numerical output and analytical methodology across runs, or fail to produce valid results on the task. We deploy this pattern on two instruments serving users over approximately six months, with very positive user feedback. Both cases are very challenging: they involve proprietary binary formats and per-seat licensed software, which force the tool to remain on local infrastructure alongside the data and the instrument it operates. We argue that deployment topology is not just a preference, but a structural requirement of scientific tool mediation. The result is a practical pattern for deploying language models in scientific workflows where reproducibility is mandatory, reducing analysis time from weeks to minutes while guaranteeing identical outputs across runs.