Symbolic Regression with a Learned Concept Library

作者: Arya Grayeli, Atharva Sehgal, Omar Costilla-Reyes, Miles Cranmer, Swarat Chaudhuri

分类: cs.LG, cs.AI, cs.NE, cs.SC

发布日期: 2024-09-14 (更新: 2024-12-10)

备注: NeurIPS version; 10 pages; no checklist; added more experiment details

💡 一句话要点

LaSR：利用学习的概念库进行符号回归，显著提升性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 符号回归 大型语言模型 概念学习 遗传算法 科学发现 自动化建模 零样本学习

📋 核心要点

符号回归旨在寻找简洁的数学表达式拟合数据，传统方法如遗传算法搜索效率低，难以发现复杂关系。
LaSR算法通过LLM零样本查询，从高性能假设中提取并演化抽象概念，指导搜索过程，提升效率。
实验表明，LaSR在Feynman方程等基准测试中显著优于现有方法，并能发现LLM的新缩放定律。

📝 摘要（中文）

本文提出了一种新颖的符号回归(SR)方法，旨在寻找能够最佳解释数据集的紧凑程序化假设。该问题通常使用遗传算法解决；我们证明可以通过引入抽象文本概念库来增强这些方法。我们的算法LaSR，使用大型语言模型(LLM)的零样本查询来发现和演化已知高性能假设中出现的概念。我们使用标准进化步骤和LLM引导的步骤（通过零样本LLM查询获得）相结合的方式，以发现的概念为条件，来发现新的假设。一旦发现，假设将被用于新一轮的概念抽象和演化。我们在Feynman方程（一个流行的SR基准）以及一组合成任务上验证了LaSR。在这些基准测试中，LaSR显著优于各种基于深度学习和进化算法的先进SR方法。此外，我们表明LaSR可用于发现LLM的一种新的且强大的缩放定律。

🔬 方法详解

问题定义：符号回归(SR)旨在从数据中自动发现数学表达式。现有方法，特别是基于遗传算法的方法，在搜索空间巨大时效率低下，难以发现复杂的、抽象的数学关系。这些方法通常缺乏利用先验知识的能力，导致搜索过程盲目且耗时。

核心思路：LaSR的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力，构建一个可学习的概念库。通过从已知的、高性能的假设中提取抽象概念，并利用这些概念指导搜索过程，LaSR能够更有效地探索假设空间，发现更简洁、更准确的数学表达式。这种方法将符号回归问题转化为一个概念驱动的搜索问题。

技术框架：LaSR的整体框架包含以下几个主要阶段：1) 概念发现：使用LLM的零样本查询，从已知的、高性能的假设中提取抽象概念。2) 概念演化：通过遗传算法等方法，对概念库进行演化，生成新的、更有效的概念。3) 假设生成：利用演化后的概念库，结合LLM的生成能力，生成新的假设。4) 假设评估：使用数据集评估生成的假设，并选择最优的假设。5) 迭代优化：重复以上步骤，不断优化概念库和假设。

关键创新：LaSR最重要的技术创新点在于将LLM引入符号回归过程，并利用其强大的语义理解和生成能力构建可学习的概念库。与传统的符号回归方法相比，LaSR能够更好地利用先验知识，更有效地探索假设空间。此外，LaSR还能够发现新的、抽象的数学概念，从而提高符号回归的准确性和效率。

关键设计：LaSR的关键设计包括：1) 使用LLM进行零样本概念提取的prompt设计。2) 概念库的表示方式和演化策略。3) LLM引导的假设生成过程，包括如何将概念融入到生成的假设中。4) 假设评估的指标，例如拟合误差和表达式的复杂度。论文中可能还涉及一些超参数的设置，例如LLM的温度系数、遗传算法的参数等。

🖼️ 关键图片

📊 实验亮点

LaSR在Feynman方程数据集上取得了显著的性能提升，超越了现有的基于深度学习和进化算法的符号回归方法。此外，LaSR还成功发现了一种新的LLM缩放定律，证明了其在发现隐藏关系方面的强大能力。具体性能数据和对比基线在论文中有详细描述。

🎯 应用场景

LaSR在科学发现、工程优化等领域具有广泛的应用前景。例如，可以用于发现新的物理定律、优化控制策略、设计新型材料等。通过自动发现数据中的潜在关系，LaSR可以加速科学研究和工程开发的进程，并为解决复杂问题提供新的思路。

📄 摘要（原文）

We present a novel method for symbolic regression (SR), the task of searching for compact programmatic hypotheses that best explain a dataset. The problem is commonly solved using genetic algorithms; we show that we can enhance such methods by inducing a library of abstract textual concepts. Our algorithm, called LaSR, uses zero-shot queries to a large language model (LLM) to discover and evolve concepts occurring in known high-performing hypotheses. We discover new hypotheses using a mix of standard evolutionary steps and LLM-guided steps (obtained through zero-shot LLM queries) conditioned on discovered concepts. Once discovered, hypotheses are used in a new round of concept abstraction and evolution. We validate LaSR on the Feynman equations, a popular SR benchmark, as well as a set of synthetic tasks. On these benchmarks, LaSR substantially outperforms a variety of state-of-the-art SR approaches based on deep learning and evolutionary algorithms. Moreover, we show that LaSR can be used to discover a novel and powerful scaling law for LLMs.

Symbolic Regression with a Learned Concept Library

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理