Discovery of Interpretable Physical Laws in Materials via Language-Model-Guided Symbolic Regression
作者: Yifeng Guan, Chuyi Liu, Dongzhan Zhou, Lei Bai, Wan-jian Yin, Jingyuan Li, Mao Su
分类: physics.comp-ph, cs.AI
发布日期: 2026-02-26
💡 一句话要点
提出语言模型引导的符号回归,用于发现材料科学中可解释的物理定律
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 符号回归 大型语言模型 材料科学 物理定律发现 钙钛矿材料
📋 核心要点
- 传统符号回归在寻找物理定律时,面临搜索空间巨大、易产生复杂且不符合物理规律公式的挑战。
- 该论文提出利用大型语言模型(LLM)的科学知识来引导符号回归,从而更有效地发现物理定律。
- 实验表明,该方法在钙钛矿材料性质建模上,有效减小搜索空间,并发现了更准确简洁的新公式。
📝 摘要(中文)
从高维数据中发现可解释的物理定律是科学研究中的一项根本挑战。传统的符号回归方法在搜索可能的公式形式时,通常会产生复杂且不符合物理规律的公式。本文介绍了一种框架,该框架利用大型语言模型中嵌入的科学知识来指导搜索过程,从而能够有效地识别数据中的物理定律。我们通过对钙钛矿材料的关键性质进行建模来验证我们的方法。我们的方法减轻了传统符号回归中常见的组合爆炸问题,将有效搜索空间减少了约$10^5$倍。我们识别出了一组用于计算体积模量、带隙和析氧反应活性的新公式,这些公式不仅提供了有意义的物理见解,而且在准确性和简洁性方面优于以前的公式。
🔬 方法详解
问题定义:论文旨在解决从材料科学高维数据中发现可解释物理定律的问题。传统符号回归方法在搜索解空间时,容易产生过于复杂、缺乏物理意义的公式,难以提供有价值的科学见解。现有方法的痛点在于搜索效率低、结果可解释性差。
核心思路:论文的核心思路是利用大型语言模型(LLM)中蕴含的科学知识,引导符号回归的搜索过程。LLM可以提供关于物理定律形式的先验知识,从而缩小搜索空间,并倾向于生成更符合物理规律的公式。这样可以提高搜索效率,并提升结果的可解释性。
技术框架:该框架主要包含以下几个阶段:1) 数据准备:收集和预处理材料科学数据,例如钙钛矿材料的性质数据。2) LLM引导:使用LLM生成候选公式的建议,这些建议基于LLM对物理定律的理解。3) 符号回归:利用符号回归算法,在LLM建议的引导下,搜索最佳的公式形式。4) 评估和筛选:根据公式的准确性、简洁性和物理意义,对搜索结果进行评估和筛选。
关键创新:该方法最重要的创新点在于将大型语言模型与符号回归相结合,利用LLM的科学知识来指导搜索过程。这与传统的符号回归方法完全不同,后者通常是在一个巨大的、无结构的搜索空间中进行盲目搜索。通过LLM的引导,可以显著减小搜索空间,并提高搜索效率。
关键设计:在LLM引导阶段,需要设计合适的prompt,以引导LLM生成有用的公式建议。在符号回归阶段,可以使用不同的符号回归算法,例如遗传算法或模拟退火算法。在评估和筛选阶段,需要定义合适的评价指标,例如均方误差、公式长度和物理意义评分。论文中提到搜索空间减少了约$10^5$倍,这是一个关键的量化指标。
🖼️ 关键图片
📊 实验亮点
该方法在钙钛矿材料的体积模量、带隙和析氧反应活性建模上取得了显著成果。与传统符号回归相比,该方法将有效搜索空间减少了约$10^5$倍。此外,该方法还发现了一组新的公式,这些公式在准确性和简洁性方面均优于以前的公式,并提供了有意义的物理见解。
🎯 应用场景
该研究成果可广泛应用于材料科学领域,例如新材料的发现、材料性质的预测和优化。通过自动发现可解释的物理定律,可以加速材料研发过程,并为材料设计提供理论指导。此外,该方法还可以推广到其他科学领域,例如化学、物理学和生物学等。
📄 摘要(原文)
Discovering interpretable physical laws from high-dimensional data is a fundamental challenge in scientific research. Traditional methods, such as symbolic regression, often produce complex, unphysical formulas when searching a vast space of possible forms. We introduce a framework that guides the search process by leveraging the embedded scientific knowledge of large language models, enabling efficient identification of physical laws in the data. We validate our approach by modeling key properties of perovskite materials. Our method mitigates the combinatorial explosion commonly encountered in traditional symbolic regression, reducing the effective search space by a factor of approximately $10^5$. A set of novel formulas for bulk modulus, band gap, and oxygen evolution reaction activity are identified, which not only provide meaningful physical insights but also outperform previous formulas in accuracy and simplicity.