Discovery of Interpretable Physical Laws in Materials via Language-Model-Guided Symbolic Regression
作者: Yifeng Guan, Chuyi Liu, Dongzhan Zhou, Lei Bai, Wan-jian Yin, Jingyuan Li, Mao Su
分类: cs.AI
发布日期: 2026-02-28
💡 一句话要点
提出语言模型引导的符号回归,用于发现材料科学中可解释的物理定律
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 符号回归 材料科学 物理定律发现 大型语言模型 钙钛矿材料
📋 核心要点
- 传统符号回归在寻找物理定律时,易产生复杂且不符合物理规律的公式,面临组合爆炸问题。
- 利用大型语言模型中蕴含的科学知识指导符号回归搜索,缩小搜索空间,提升效率。
- 在钙钛矿材料性质建模上验证了该方法,发现了更准确、简洁且具有物理意义的新公式。
📝 摘要(中文)
从高维数据中发现可解释的物理定律是科学研究中的一项根本挑战。传统的符号回归方法在搜索可能的公式形式时,通常会产生复杂且不符合物理规律的公式。本文介绍了一种框架,该框架利用大型语言模型中嵌入的科学知识来指导搜索过程,从而能够有效地识别数据中的物理定律。我们通过对钙钛矿材料的关键性质进行建模来验证我们的方法。我们的方法减轻了传统符号回归中常见的组合爆炸问题,将有效搜索空间减少了大约$10^5$倍。我们识别出了一系列用于计算体积模量、带隙和析氧反应活性的新公式,这些公式不仅提供了有意义的物理见解,而且在准确性和简洁性方面优于以前的公式。
🔬 方法详解
问题定义:论文旨在解决从高维材料数据中发现可解释物理定律的问题。传统符号回归方法在搜索公式时,由于搜索空间巨大,容易产生复杂、难以解释且不符合物理规律的公式,导致泛化能力差,且缺乏物理意义。组合爆炸问题使得搜索效率极低。
核心思路:论文的核心思路是利用大型语言模型(LLM)中蕴含的科学知识来指导符号回归的搜索过程。LLM通过大量科学文献的训练,已经学习到丰富的物理规律和概念之间的关系。因此,可以利用LLM对候选公式进行评估和筛选,从而缩小搜索空间,提高搜索效率,并保证结果的物理合理性。
技术框架:该框架主要包含以下几个阶段:1) 数据准备:收集和预处理材料数据,例如钙钛矿材料的成分、结构和性质等。2) 公式生成:使用符号回归算法生成候选公式。3) 语言模型引导:利用大型语言模型对候选公式进行评估,例如判断公式是否符合物理量纲、是否与已知的物理规律相符等。4) 公式优化:根据语言模型的评估结果,对候选公式进行优化,例如调整公式中的系数或添加新的项。5) 公式验证:使用实验数据或第一性原理计算结果验证优化后的公式,选择最优公式。
关键创新:最重要的技术创新点在于将大型语言模型与符号回归相结合,利用语言模型中蕴含的科学知识来指导搜索过程。这与传统的符号回归方法完全不同,传统方法通常采用盲搜索或基于遗传算法的搜索,效率低且难以保证结果的物理合理性。该方法显著降低了搜索空间,提高了搜索效率,并保证了结果的物理可解释性。
关键设计:论文中关键的设计包括:1) 如何将物理定律和量纲信息编码到语言模型中,使其能够有效地评估候选公式。2) 如何设计损失函数,使得优化后的公式既能准确拟合数据,又能满足语言模型的约束。3) 如何平衡语言模型的引导作用和数据的拟合程度,避免过度依赖语言模型而忽略数据的真实性。具体参数设置和网络结构等细节在论文中可能并未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该方法在钙钛矿材料的体积模量、带隙和析氧反应活性预测方面取得了显著成果。与传统符号回归相比,有效搜索空间减少了约$10^5$倍。发现的新公式在准确性和简洁性方面均优于以往的经验公式,并提供了有意义的物理见解。具体性能提升数据可能在论文正文中,此处摘要未提供。
🎯 应用场景
该研究成果可广泛应用于材料科学、化学、物理学等领域,加速新材料的发现和性能预测。通过自动发现可解释的物理定律,可以帮助科研人员更深入地理解材料的内在机制,并为材料设计提供理论指导。未来,该方法有望应用于更复杂体系的建模和预测,例如催化剂设计、药物发现等。
📄 摘要(原文)
Discovering interpretable physical laws from high-dimensional data is a fundamental challenge in scientific research. Traditional methods, such as symbolic regression, often produce complex, unphysical formulas when searching a vast space of possible forms. We introduce a framework that guides the search process by leveraging the embedded scientific knowledge of large language models, enabling efficient identification of physical laws in the data. We validate our approach by modeling key properties of perovskite materials. Our method mitigates the combinatorial explosion commonly encountered in traditional symbolic regression, reducing the effective search space by a factor of approximately $10^5$. A set of novel formulas for bulk modulus, band gap, and oxygen evolution reaction activity are identified, which not only provide meaningful physical insights but also outperform previous formulas in accuracy and simplicity.