Symbolic Regression with a Learned Concept Library
作者: Arya Grayeli, Atharva Sehgal, Omar Costilla-Reyes, Miles Cranmer, Swarat Chaudhuri
分类: cs.LG, cs.AI, cs.NE, cs.SC
发布日期: 2024-09-14 (更新: 2024-12-10)
备注: NeurIPS version; 10 pages; no checklist; added more experiment details
💡 一句话要点
LaSR:利用学习的概念库进行符号回归,显著提升性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 符号回归 大型语言模型 概念学习 遗传算法 科学发现 自动化建模 零样本学习
📋 核心要点
- 符号回归旨在寻找简洁的数学表达式拟合数据,传统方法如遗传算法搜索效率低,难以发现复杂关系。
- LaSR算法通过LLM零样本查询,从高性能假设中提取并演化抽象概念,指导搜索过程,提升效率。
- 实验表明,LaSR在Feynman方程等基准测试中显著优于现有方法,并能发现LLM的新缩放定律。
📝 摘要(中文)
本文提出了一种新颖的符号回归(SR)方法,旨在寻找能够最佳解释数据集的紧凑程序化假设。该问题通常使用遗传算法解决;我们证明可以通过引入抽象文本概念库来增强这些方法。我们的算法LaSR,使用大型语言模型(LLM)的零样本查询来发现和演化已知高性能假设中出现的概念。我们使用标准进化步骤和LLM引导的步骤(通过零样本LLM查询获得)相结合的方式,以发现的概念为条件,来发现新的假设。一旦发现,假设将被用于新一轮的概念抽象和演化。我们在Feynman方程(一个流行的SR基准)以及一组合成任务上验证了LaSR。在这些基准测试中,LaSR显著优于各种基于深度学习和进化算法的先进SR方法。此外,我们表明LaSR可用于发现LLM的一种新的且强大的缩放定律。
🔬 方法详解
问题定义:符号回归(SR)旨在从数据中自动发现数学表达式。现有方法,特别是基于遗传算法的方法,在搜索空间巨大时效率低下,难以发现复杂的、抽象的数学关系。这些方法通常缺乏利用先验知识的能力,导致搜索过程盲目且耗时。
核心思路:LaSR的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力,构建一个可学习的概念库。通过从已知的、高性能的假设中提取抽象概念,并利用这些概念指导搜索过程,LaSR能够更有效地探索假设空间,发现更简洁、更准确的数学表达式。这种方法将符号回归问题转化为一个概念驱动的搜索问题。
技术框架:LaSR的整体框架包含以下几个主要阶段:1) 概念发现:使用LLM的零样本查询,从已知的、高性能的假设中提取抽象概念。2) 概念演化:通过遗传算法等方法,对概念库进行演化,生成新的、更有效的概念。3) 假设生成:利用演化后的概念库,结合LLM的生成能力,生成新的假设。4) 假设评估:使用数据集评估生成的假设,并选择最优的假设。5) 迭代优化:重复以上步骤,不断优化概念库和假设。
关键创新:LaSR最重要的技术创新点在于将LLM引入符号回归过程,并利用其强大的语义理解和生成能力构建可学习的概念库。与传统的符号回归方法相比,LaSR能够更好地利用先验知识,更有效地探索假设空间。此外,LaSR还能够发现新的、抽象的数学概念,从而提高符号回归的准确性和效率。
关键设计:LaSR的关键设计包括:1) 使用LLM进行零样本概念提取的prompt设计。2) 概念库的表示方式和演化策略。3) LLM引导的假设生成过程,包括如何将概念融入到生成的假设中。4) 假设评估的指标,例如拟合误差和表达式的复杂度。论文中可能还涉及一些超参数的设置,例如LLM的温度系数、遗传算法的参数等。
🖼️ 关键图片
📊 实验亮点
LaSR在Feynman方程数据集上取得了显著的性能提升,超越了现有的基于深度学习和进化算法的符号回归方法。此外,LaSR还成功发现了一种新的LLM缩放定律,证明了其在发现隐藏关系方面的强大能力。具体性能数据和对比基线在论文中有详细描述。
🎯 应用场景
LaSR在科学发现、工程优化等领域具有广泛的应用前景。例如,可以用于发现新的物理定律、优化控制策略、设计新型材料等。通过自动发现数据中的潜在关系,LaSR可以加速科学研究和工程开发的进程,并为解决复杂问题提供新的思路。
📄 摘要(原文)
We present a novel method for symbolic regression (SR), the task of searching for compact programmatic hypotheses that best explain a dataset. The problem is commonly solved using genetic algorithms; we show that we can enhance such methods by inducing a library of abstract textual concepts. Our algorithm, called LaSR, uses zero-shot queries to a large language model (LLM) to discover and evolve concepts occurring in known high-performing hypotheses. We discover new hypotheses using a mix of standard evolutionary steps and LLM-guided steps (obtained through zero-shot LLM queries) conditioned on discovered concepts. Once discovered, hypotheses are used in a new round of concept abstraction and evolution. We validate LaSR on the Feynman equations, a popular SR benchmark, as well as a set of synthetic tasks. On these benchmarks, LaSR substantially outperforms a variety of state-of-the-art SR approaches based on deep learning and evolutionary algorithms. Moreover, we show that LaSR can be used to discover a novel and powerful scaling law for LLMs.