LLM-Guided Open Hypothesis Learning from Autonomous Scanning Probe Microscopy Experiments

📄 arXiv: 2605.06839v1 📥 PDF

作者: Boris Slautin, Utkarsh Pratiush, Yu Liu, Kamyar Barakati, Sergei Kalinin

分类: cond-mat.mtrl-sci, cs.AI

发布日期: 2026-05-07

备注: 21 pages, 6 figures, 1 table


💡 一句话要点

提出基于大模型引导的开放式假设学习框架,实现扫描探针显微镜的自主科学发现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主实验 扫描探针显微镜 符号回归 大语言模型 科学发现 物理模型学习 材料信息学

📋 核心要点

  1. 现有自主实验多局限于预设的假设空间,无法从实验数据中自动推导并生成全新的物理模型。
  2. 提出结合符号回归与大语言模型(LLM)的框架,利用符号回归生成解析式,LLM进行物理一致性评估。
  3. 在PZT薄膜铁电畴切换实验中,系统成功从稀疏数据中演化出符合动力学规律的物理生长定律。

📝 摘要(中文)

自主实验已通过闭环优化(如成像与光谱调控、结构-性质关系发现)改变了显微镜技术与材料发现领域。然而,现有工作多局限于在固定的目标或假设空间内选择测量点,而非从实验数据中生成新的物理模型。本文提出了一种开放式假设学习框架,将符号回归与大语言模型(LLM)的物理评估相结合,并应用于自主扫描探针显微镜(SPM)。符号回归从稀疏测量数据中生成候选解析关系,而LLM评估器则根据物理合理性、缩放行为及与已知机制的一致性对候选模型进行排序。我们在PZT薄膜铁电畴切换的自主压电响应力显微镜(PFM)实验中验证了该方法。从五次初始测量开始,该工作流从物理不完整的候选表达式演化为与动力学畴壁运动一致的可解释电压-时间生长定律,标志着自主显微镜从闭环优化向开放式假设发现的跨越。

🔬 方法详解

问题定义:现有自主显微镜实验主要依赖于预定义的参数空间进行优化,缺乏从实验数据中自动发现物理定律的能力,导致科学发现受限于人类预设的假设空间。

核心思路:引入“开放式假设学习”范式,将数据驱动的符号回归(生成候选模型)与知识驱动的LLM(评估物理合理性)相结合,实现从数据到物理定律的闭环自动生成。

技术框架:系统包含三个核心模块:1. 实验采样模块,负责在SPM中获取稀疏测量数据;2. 符号回归模块,利用遗传算法或类似机制从数据中搜索解析表达式;3. LLM评估模块,作为“物理裁判”,根据物理定律、量纲分析和领域知识对候选表达式进行打分与筛选。

关键创新:将LLM作为物理推理引擎引入科学发现流程,解决了符号回归易产生数学拟合良好但物理意义荒谬的“过拟合”问题,实现了模型生成与物理约束的有机统一。

关键设计:采用迭代式学习策略,通过LLM对符号回归生成的候选集进行多维度评估(如物理一致性、简洁性),并将评估结果反馈给搜索算法,引导其向更符合物理规律的方向演化。

📊 实验亮点

实验在PZT薄膜铁电畴切换研究中表现出色,仅需5个初始测量点,系统便能自动演化出与畴壁动力学运动一致的电压-时间生长定律。该方法成功克服了传统符号回归在小样本下产生物理无意义表达式的局限,证明了LLM在科学发现中作为物理约束与推理工具的有效性。

🎯 应用场景

该框架适用于材料科学、化学合成及复杂物理系统的自动化研究。其核心价值在于将实验设备从单纯的“数据采集器”转变为“科学发现者”,能够显著加速新材料发现、复杂动力学机制解析及未知物理定律的探索过程,具有广泛的科研应用前景。

📄 摘要(原文)

Autonomous experimentation has transformed microscopy and materials discovery by enabling closed-loop optimization including imaging and spectroscopy tuning, strucutre property relationship discovery, and exploration of combinatorial libraries. However, most current workflows remain limited to selecting measurements within fixed objective or hypothesis spaces, rather than generating new physical models from experimental data. Here, we introduce an open hypothesis-learning framework that combines symbolic regression with large-language-model-based physical evaluation and implement it for autonomous scanning probe microscopy. Symbolic regression generates candidate analytical relationships directly from sparse measurements, while the language-model evaluator ranks these candidates according to physical plausibility, scaling behavior, and consistency with known mechanisms. We demonstrate the approach on autonomous piezoresponse force microscopy measurements of ferroelectric domain switching in a PZT thin film. Starting from five seed measurements, the workflow evolves from physically incomplete candidate expressions toward interpretable voltage-time growth laws consistent with kinetic domain-wall motion. This work extends autonomous microscopy from closed-loop optimization toward open hypothesis discovery, where candidate physical laws emerge from the experiment itself rather than being specified in advance. More broadly, the framework establishes a route for integrating symbolic regression, physical reasoning, and adaptive experimentation into hierarchical autonomous scientific workflows.