Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework

📄 arXiv: 2502.02917v2 📥 PDF

作者: Yuan Tian, Wenqi Zhou, Michele Viscione, Hao Dong, David Kammer, Olga Fink

分类: cs.LG, cs.AI, cs.SC

发布日期: 2025-02-05 (更新: 2025-02-11)

备注: This work should not be a new submission but instead should be an update to my existing article, arXiv:2402.05306

🔗 代码/项目: GITHUB


💡 一句话要点

提出Sym-Q:一种基于离线强化学习的交互式符号回归框架,解决表达式搜索难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 符号回归 强化学习 离线学习 人机交互 协同设计 表达式搜索 树编码器

📋 核心要点

  1. 符号回归面临巨大的表达式组合空间挑战,现有方法难以有效搜索,且忽略了领域专家知识的整合与迭代交互。
  2. Sym-Q利用离线强化学习,结合任意树编码器,无需Transformer解码器,实现高效训练和推理,并支持与领域专家协同设计。
  3. 实验表明,Sym-Q在SSDNC基准测试中超越现有算法,并通过交互式协同设计在真实案例中获得更大的性能提升。

📝 摘要(中文)

符号回归(SR)在从观测数据中发现潜在的数学和物理关系方面具有巨大潜力。然而,可能的表达式的巨大组合空间对在线搜索方法和预训练的Transformer模型都提出了重大挑战。此外,当前最先进的方法通常不考虑领域专家的先验知识的整合,也不支持在方程发现过程中与模型的迭代交互。为了解决这些挑战,我们提出了一种用于大规模符号回归的先进交互式框架——符号Q网络(Sym-Q)。与之前基于Transformer的大规模SR方法不同,Sym-Q利用强化学习,不依赖于基于Transformer的解码器。这种公式允许智能体通过离线强化学习,使用任何类型的树编码器进行学习,从而实现更有效的训练和推理。此外,我们提出了一种协同设计机制,其中基于强化学习的Sym-Q促进了与领域专家在方程发现过程的任何阶段进行有效交互。用户可以动态地修改生成的表达式节点,与智能体协作,定制数学表达式,以最好地适应问题并与假定的物理定律保持一致,尤其是在对预期行为有先验部分知识的情况下。我们的实验表明,预训练的Sym-Q在具有挑战性的SSDNC基准测试中超越了现有的SR算法。此外,我们在真实案例中通过实验表明,通过交互式协同设计机制,其性能可以进一步提高,Sym-Q比其他最先进的模型获得了更大的性能提升。我们的可复现代码可在https://github.com/EPFL-IMOS/Sym-Q 获得。

🔬 方法详解

问题定义:符号回归旨在从数据中自动发现数学表达式。现有方法,特别是基于Transformer的模型,在大规模表达式空间搜索中效率较低,且难以融入领域专家的先验知识,缺乏交互性,导致难以发现符合物理规律的表达式。

核心思路:将符号回归问题建模为强化学习任务,利用离线强化学习从已有的表达式数据中学习策略,避免在线搜索的低效。通过协同设计机制,允许领域专家在表达式生成过程中进行干预,融入先验知识,提高表达式的合理性和准确性。

技术框架:Sym-Q框架包含以下主要模块:1) 树编码器:将表达式树编码为向量表示;2) Q网络:评估每个表达式节点扩展动作的价值;3) 离线强化学习:利用已有的表达式数据集训练Q网络;4) 交互式协同设计:允许用户修改表达式树的节点,并重新评估和生成后续节点。整体流程是先用离线数据预训练Q网络,然后在交互过程中,用户可以修改表达式,系统根据修改后的表达式,利用Q网络生成后续节点,不断迭代,直到得到满意的表达式。

关键创新:1) 使用离线强化学习进行符号回归,避免了在线搜索的计算开销;2) 提出协同设计机制,允许领域专家参与表达式生成过程,融入先验知识;3) 不依赖Transformer解码器,可以使用任意树编码器,提高了灵活性和效率。

关键设计:Q网络的输入是表达式树的向量表示,输出是每个可能扩展动作的Q值。损失函数采用标准的Q学习损失。树编码器可以使用现有的树结构编码方法,例如Tree-LSTM。协同设计机制允许用户修改表达式树的节点类型和参数,系统根据修改后的树重新计算Q值,并生成后续节点。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,Sym-Q在SSDNC基准测试中超越了现有符号回归算法。更重要的是,通过交互式协同设计,Sym-Q在真实案例中获得了比其他state-of-the-art模型更大的性能提升,验证了该框架在实际应用中的有效性和优越性。具体性能数据和提升幅度在论文中有详细展示。

🎯 应用场景

该研究成果可应用于科学发现、工程设计、金融建模等领域。例如,在物理学中,可以利用该方法从实验数据中发现新的物理定律;在工程设计中,可以用于优化控制策略;在金融领域,可以用于构建更准确的金融模型。该方法通过人机协同,有望加速科学研究和工程实践。

📄 摘要(原文)

Symbolic Regression (SR) holds great potential for uncovering underlying mathematical and physical relationships from observed data. However, the vast combinatorial space of possible expressions poses significant challenges for both online search methods and pre-trained transformer models. Additionally, current state-of-the-art approaches typically do not consider the integration of domain experts' prior knowledge and do not support iterative interactions with the model during the equation discovery process. To address these challenges, we propose the Symbolic Q-network (Sym-Q), an advanced interactive framework for large-scale symbolic regression. Unlike previous large-scale transformer-based SR approaches, Sym-Q leverages reinforcement learning without relying on a transformer-based decoder. This formulation allows the agent to learn through offline reinforcement learning using any type of tree encoder, enabling more efficient training and inference. Furthermore, we propose a co-design mechanism, where the reinforcement learning-based Sym-Q facilitates effective interaction with domain experts at any stage of the equation discovery process. Users can dynamically modify generated nodes of the expression, collaborating with the agent to tailor the mathematical expression to best fit the problem and align with the assumed physical laws, particularly when there is prior partial knowledge of the expected behavior. Our experiments demonstrate that the pre-trained Sym-Q surpasses existing SR algorithms on the challenging SSDNC benchmark. Moreover, we experimentally show on real-world cases that its performance can be further enhanced by the interactive co-design mechanism, with Sym-Q achieving greater performance gains than other state-of-the-art models. Our reproducible code is available at https://github.com/EPFL-IMOS/Sym-Q.