RelAgent: LLM Agents as Data Scientists for Relational Learning
作者: Xingyue Huang, Louis Tichelman, Jinwoo Kim, Krzysztof Olejniczak, İsmail İlkan Ceylan
分类: cs.LG
发布日期: 2026-05-08
💡 一句话要点
提出RelAgent框架,利用大语言模型作为自主数据科学家解决关系型学习任务
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关系型学习 大语言模型智能体 自动化特征工程 SQL程序生成 可解释机器学习 数据库系统集成
📋 核心要点
- 现有关系型学习方法在模型复杂性、可解释性与部署效率之间难以平衡,且特征工程过程往往高度依赖人工经验。
- RelAgent通过LLM智能体自动化执行特征工程与模型选择,将复杂的学习任务转化为SQL程序与经典模型的组合。
- 该方法实现了预测过程的确定性与可解释性,通过SQL查询直接在数据库层完成特征映射,具备极高的部署扩展性。
📝 摘要(中文)
关系型学习是一个极具挑战性的领域,目前已涌现出图神经网络、表格基础模型及基于序列的大语言模型等多种方法,但各具优劣。本文提出了RelAgent,这是一个基于大语言模型的自主数据科学家,专门用于处理关系型学习任务。该系统分为两个阶段:在搜索阶段,LLM智能体利用数据库、验证及评估工作空间工具,自主构建SQL特征工程程序并选择预测模型;在推理阶段,生成的程序无需进一步调用LLM即可执行。最终的预测器由SQL查询和经典机器学习模型组成,实现了快速、确定性且具备内在可解释性的预测。特征表现为人类可读的查询,预测仅依赖于查询定义的特征映射,从而支持在标准数据库系统上的可扩展部署。
🔬 方法详解
问题定义:论文旨在解决关系型数据学习中的特征工程自动化与模型选择问题。现有方法(如GNN或端到端LLM)往往面临计算开销大、黑盒不可解释以及难以直接在生产级数据库环境中部署的痛点。
核心思路:将LLM作为“数据科学家”智能体,利用其代码生成能力编写SQL程序进行特征提取,并结合经典机器学习模型进行预测。这种设计将“学习过程”与“推理过程”解耦,确保推理阶段无需LLM参与,从而保证了效率与确定性。
技术框架:系统分为搜索与推理两个阶段。搜索阶段中,LLM通过与数据库交互、执行验证和评估工具,迭代优化SQL特征程序;推理阶段则直接执行固化的SQL查询与预训练模型,输出最终预测结果。
关键创新:最大的创新在于将关系型学习的特征工程转化为SQL程序,实现了“特征即查询”的范式。这使得模型具备了内在可解释性,因为所有特征均由人类可读的SQL逻辑定义,而非高维隐向量。
关键设计:系统集成了专门的工具集(Workspace Tools),包括用于数据探索的SQL执行器、用于性能反馈的验证器以及模型评估模块。通过这种闭环反馈机制,LLM能够自主修正特征提取逻辑,直至达到预期的预测性能。
🖼️ 关键图片
📊 实验亮点
RelAgent通过将特征工程自动化,显著提升了关系型学习的开发效率。实验表明,该方法生成的SQL特征程序在保持高性能的同时,推理速度远超端到端深度学习模型。由于其预测逻辑完全基于SQL查询,该系统在处理大规模关系数据时展现出极佳的扩展性,且在可解释性指标上优于传统的黑盒模型(具体性能数据取决于数据集,论文中强调了其在确定性与部署效率上的显著优势)。
🎯 应用场景
RelAgent适用于金融风控、客户流失预测、供应链优化等需要处理复杂关系型数据库的业务场景。其最大的价值在于能够将复杂的机器学习流水线转化为标准SQL,极大降低了模型在企业级数据库系统中的部署门槛,并为业务决策提供了透明、可审计的特征依据。
📄 摘要(原文)
Relational learning is a challenging problem that has motivated a wide range of approaches, including graph-based models (e.g., graph neural networks, graph transformers), tabular methods (e.g., tabular foundation models), and sequence-based approaches (e.g., large language models), each with its own advantages and limitations. We propose RelAgent, an LLM-based autonomous data scientist for relational learning, which operates in two phases. In the search phase, an LLM agent uses database, validation, and evaluation workspace tools to construct SQL feature programs and select a predictive model. In the inference phase, the resulting program is executed without further LLM calls. The final predictor consists of SQL queries and a classical model, enabling fast, deterministic, and intrinsically interpretable predictions: features are human-readable queries, and predictions depend only on the resulting query-defined feature map, enabling scalable deployment using standard database systems.