Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism

📄 arXiv: 2510.15600v2 📥 PDF

作者: Haoran Sun, Yankai Jiang, Zhenyu Tang, Yaning Pan, Shuang Gu, Zekai Lin, Lilong Wang, Wenjie Lou, Lei Liu, Lei Bai, Xiaosong Wang

分类: cs.AI, cs.CL

发布日期: 2025-10-17 (更新: 2026-01-27)


💡 一句话要点

提出Thoth,利用结构化奖励机制生成生物实验协议,提升可复现性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物实验协议生成 大型语言模型 可复现性 结构化奖励机制 Sketch-and-Fill 知识到行动 SciRecipe数据集

📋 核心要点

  1. 现有大型语言模型在生成生物实验协议时存在不完整、不一致的问题,限制了其在可复现科学中的应用。
  2. 论文提出“Sketch-and-Fill”范式和结构化组件奖励机制,显式地分离分析、结构化和表达步骤,并优化协议的步骤粒度、动作顺序和语义保真度。
  3. 实验结果表明,Thoth在步骤对齐、逻辑排序和语义准确性方面显著优于现有LLM,为构建可靠的科学助手奠定了基础。

📝 摘要(中文)

为了提高生物实验的可复现性,论文提出了通过自然语言查询自动生成精确、逻辑有序且可执行的实验协议的方法。现有大型语言模型(LLMs)生成的协议通常不完整或不一致,限制了其应用。为此,论文首先构建了一个大规模数据集SciRecipe,包含超过12K个结构化协议,涵盖27个生物子领域,包含理解和问题解决任务。进一步,论文提出了“Sketch-and-Fill”范式,分离分析、结构化和表达步骤,确保每一步都明确可验证。同时,设计了基于结构化组件的奖励机制,评估步骤粒度、动作顺序和语义保真度,使模型优化与实验可靠性对齐。基于这些组件,开发了Thoth,通过分阶段的知识到行动过程进行训练,从知识获取到操作推理,最终生成鲁棒、可执行的协议。在多个基准测试中,Thoth始终优于专有和开源LLM,在步骤对齐、逻辑排序和语义准确性方面取得了显著改进。该方法为连接知识与实验执行的可靠科学助手铺平了道路。所有数据、代码和模型都将公开发布。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在生成生物实验协议时存在的不足,即生成的协议常常不完整或不一致,导致实验难以复现。现有方法缺乏对实验步骤的细粒度控制和逻辑顺序的保证,难以满足生物实验对精确性和可执行性的要求。

核心思路:论文的核心思路是将协议生成过程分解为分析、结构化和表达三个明确的步骤,并通过结构化的奖励机制来指导模型的学习。通过“Sketch-and-Fill”范式,模型首先生成协议的框架(Sketch),然后逐步填充细节(Fill)。这种分解使得每个步骤都可验证,从而提高了协议的质量和可靠性。

技术框架:Thoth的整体框架包含以下几个主要模块:1) SciRecipe数据集:一个大规模的结构化生物实验协议数据集,用于模型的训练和评估。2) “Sketch-and-Fill”范式:将协议生成分解为分析、结构化和表达三个阶段。3) 结构化组件奖励机制:用于评估生成的协议的步骤粒度、动作顺序和语义保真度。4) 分阶段的知识到行动过程:从知识获取到操作推理,最终生成可执行的协议。

关键创新:论文的关键创新在于结合了“Sketch-and-Fill”范式和结构化组件奖励机制。前者通过显式地分解生成过程,提高了协议的可控性和可解释性;后者通过细粒度的奖励信号,引导模型生成更精确、更符合逻辑的协议。与现有方法相比,Thoth更加注重协议的结构化和可验证性,从而提高了实验的可复现性。

关键设计:结构化组件奖励机制是Thoth的关键设计之一。该机制包含三个主要部分:步骤粒度评估、动作顺序评估和语义保真度评估。步骤粒度评估旨在确保协议的步骤足够详细,能够指导实验的执行。动作顺序评估旨在确保协议的步骤按照正确的逻辑顺序排列。语义保真度评估旨在确保生成的协议与用户的查询意图一致。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Thoth在多个基准测试中 consistently surpass 了专有和开源LLM,在步骤对齐、逻辑排序和语义准确性方面取得了显著改进。具体的性能数据和提升幅度在论文中进行了详细展示(未知),表明该方法在生物实验协议生成方面具有显著优势。

🎯 应用场景

该研究成果可应用于生物医药、化学等领域,为科研人员提供自动化的实验协议生成工具,提高实验效率和可复现性。未来,该技术有望扩展到其他科学领域,加速科学发现和技术创新。同时,该方法也可用于教育领域,帮助学生更好地理解和掌握实验流程。

📄 摘要(原文)

The foundation of reproducible science lies in protocols that are precise, logically ordered, and executable. The autonomous generation of these protocols through natural language queries could greatly improve the efficiency of the reproduction process. However, current leading large language models (LLMs) often generate incomplete or inconsistent protocols, limiting their utility. To address this limitation, we first introduce SciRecipe, a large-scale dataset of over 12K structured protocols spanning 27 biological subfields and encompassing both comprehension and problem-solving tasks. To further improve protocol generation, we propose the "Sketch-and-Fill" paradigm, which separates analysis, structuring, and expression to ensure each step is explicit and verifiable. Complementing this, the structured component-based reward mechanism evaluates step granularity, action order, and semantic fidelity, aligning model optimization with experimental reliability. Building on these components, we develop Thoth, trained through a staged Knowledge-to-Action process that progresses from knowledge acquisition to operational reasoning and ultimately to robust, executable protocol generation. Across multiple benchmarks, Thoth consistently surpasses both proprietary and open-source LLMs, achieving significant improvements in step alignment, logical sequencing, and semantic accuracy. Our approach paves the way for reliable scientific assistants that bridge knowledge with experimental execution. All data, code, and models will be released publicly.