Accelerating materials discovery using foundation model based In-context active learning
作者: Jeffrey Hu, Rongzhi Dong, Ying Feng, Ming Hu, Jianjun Hu
分类: cond-mat.mtrl-sci, cs.LG
发布日期: 2026-03-13
备注: 18 pages
💡 一句话要点
提出基于预训练模型的上下文主动学习方法ICAL,加速材料发现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动学习 材料发现 预训练模型 Transformer 不确定性估计
📋 核心要点
- 传统主动学习依赖的高斯过程和随机森林代理模型在材料数据集上存在局限性,前者难以拟合复杂关系,后者在小数据下不确定性估计不可靠。
- 论文提出基于预训练Transformer模型TabPFN的上下文主动学习方法ICAL,利用其在大量合成数据上学习的通用先验知识,提升预测不确定性的校准。
- 实验结果表明,ICAL在多个材料数据集上优于传统方法,显著减少了实验次数,验证了预训练模型作为代理模型的有效性。
📝 摘要(中文)
主动学习(AL)已成为加速材料发现的强大范例,它通过迭代地将实验引导到最有希望的候选材料,从而减少了昂贵的合成与表征周期。然而,当前的AL主要依赖于高斯过程(GP)和随机森林(RF)代理模型,它们各有局限性:GP由于刚性的核函数假设而无法很好地拟合复杂的成分-属性关系,而RF在小数据情况下产生不可靠的不确定性估计,而大多数材料数据集都属于这种情况(样本量<500)。本文提出了一种基于预训练模型的上下文主动学习(ICAL)方法,用TabPFN取代了传统的代理模型。TabPFN是一个基于Transformer的基础模型,在数百万个合成任务上进行了预训练,以元学习表格数据的通用先验。TabPFN在单个前向传递中执行有原则的贝叶斯推理,无需特定于数据集的重新训练,从而提供了良好校准的预测不确定性,而这正是GP和RF表现最差的地方。在涵盖铜合金硬度和导电性、块体金属玻璃形成能力和晶格热导率的10个材料数据集上,TabPFN在8个数据集上优于GP和RF,相对于GP平均节省了52%的额外实验/评估,相对于RF节省了29.77%。交叉验证分析证实,TabPFN的优势源于卓越的不确定性校准,在所有代理模型中实现了最低的负对数似然和稀疏化误差曲线下面积。我们的工作表明,预训练的基础模型可以作为加速基于主动学习的材料发现的非常有效的代理。
🔬 方法详解
问题定义:论文旨在解决材料发现中主动学习方法对复杂成分-属性关系建模能力不足,以及在小数据集上不确定性估计不准确的问题。现有方法如高斯过程(GP)和随机森林(RF)存在各自的局限性,导致主动学习效率降低。
核心思路:论文的核心思路是利用预训练的Transformer模型TabPFN作为主动学习的代理模型,替代传统的GP和RF。TabPFN在大量合成表格数据上进行了预训练,学习到了表格数据的通用先验知识,能够更好地泛化到新的材料数据集上,并提供更准确的不确定性估计。
技术框架:ICAL的整体框架仍然是标准的主动学习流程,包括:1) 从材料数据库中选择初始训练集;2) 使用TabPFN对材料属性进行预测,并估计预测的不确定性;3) 根据不确定性选择下一个要进行实验验证的材料;4) 将实验结果添加到训练集中,并重复步骤2和3,直到达到预定的实验次数或性能目标。关键在于使用TabPFN替代了传统的GP或RF代理模型。
关键创新:最重要的技术创新点在于使用预训练的Transformer模型TabPFN作为主动学习的代理模型。与传统的GP和RF相比,TabPFN不需要针对特定数据集进行重新训练,而是直接利用预训练的通用先验知识进行预测,从而提高了泛化能力和不确定性估计的准确性。
关键设计:TabPFN的关键设计包括:1) 在数百万个合成表格数据集上进行预训练,学习表格数据的通用先验知识;2) 使用Transformer架构进行建模,能够捕捉复杂的成分-属性关系;3) 通过贝叶斯推理提供预测的不确定性估计;4) 在主动学习循环中,使用不确定性采样策略选择下一个要进行实验验证的材料。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ICAL在10个材料数据集中的8个上优于GP和RF,平均节省了52%的额外实验/评估(相对于GP)和29.77%(相对于RF)。交叉验证分析表明,TabPFN具有更优越的不确定性校准能力,实现了最低的负对数似然和稀疏化误差曲线下面积。
🎯 应用场景
该研究成果可广泛应用于材料科学领域,加速新材料的发现和优化。例如,可以用于寻找具有特定性能的合金、陶瓷、聚合物等。通过减少昂贵的实验次数,降低研发成本,缩短研发周期,加速新材料的商业化进程。未来,该方法可以扩展到其他领域,如药物发现、化学反应优化等。
📄 摘要(原文)
Active learning (AL) has emerged as a powerful paradigm for accelerating materials discovery by iteratively steering experiments toward the most promising candidates, reducing costly synthesis-and-characterization cycles. However, current AL relies predominantly on Gaussian Process (GP) and Random Forest (RF) surrogates with complementary limitations: GP underfits complex composition--property landscapes due to rigid kernel assumptions, while RF produces unreliable uncertainty estimates in small-data regimes, precisely where most materials datasets reside (with < 500 samples). Here we propose foudaiton model based In-Context Active Learning (ICAL), replacing conventional surrogates with TabPFN, a transformer-based foundation model pre-trained on millions of synthetic tasks to meta-learn a universal prior over tabular data. TabPFN performs principled Bayesian inference in a single forward pass without dataset-specific retraining, delivering well-calibrated predictive uncertainty where GP and RF fail most severely. Benchmarked against GP and RF across 10 materials datasets spanning copper alloy hardness and electrical conductivity, bulk metallic glass-forming ability, and crystal lattice thermal conductivity, TabPFN wins on 8 out of 10 datasets, achieving a mean saving of 52\% in extra experiments/evaluations relative to GP and 29.77% relative to RF. Cross-validation analysis confirms that TabPFN's advantage stems from superior uncertainty calibration,achieving the lowest Negative Log-Likelihood and Area Under the Sparsification Error curve among all surrogates. Our work demonstrates that a pre-trained foundation model can serve as a highly effective surrogate for accelerating active learning-based materials discovery.