Memory-Augmented LLM-based Multi-Agent System for Automated Feature Generation on Tabular Data
作者: Fengxian Dong, Zhi Zheng, Xiao Han, Wei Chen, Jingqing Ruan, Tong Xu, Yong Chen, Enhong Chen
分类: cs.AI
发布日期: 2026-04-22
备注: 16 pages (including appendix), 4 main figures, 15 tables. Accepted to ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出MALMAS,一种基于记忆增强LLM的多智能体系统,用于表格数据自动特征生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动特征生成 大语言模型 多智能体系统 记忆增强 表格数据 机器学习 特征工程
📋 核心要点
- 传统自动特征生成方法依赖预定义算子,缺乏任务语义利用,难以生成高质量特征。
- MALMAS通过多智能体分解任务,并引入记忆模块,实现特征生成的迭代优化和自适应指导。
- 实验表明,MALMAS在多个数据集上超越了现有最佳方法,验证了其有效性。
📝 摘要(中文)
本文提出了一种基于记忆增强的大语言模型多智能体系统(MALMAS),用于自动特征生成。自动特征生成从原始表格数据中提取信息丰富的特征,无需人工干预,这对于准确、可泛化的机器学习至关重要。传统方法依赖于预定义的算子库,无法利用任务语义,限制了其为复杂任务生成多样化、高价值特征的能力。最近基于大语言模型(LLM)的方法引入了更丰富的语义信号,但由于固定的生成模式而面临受限的特征空间,并且缺乏来自学习目标的反馈。为了解决这些挑战,MALMAS将生成过程分解为具有不同职责的智能体,并且路由代理在每次迭代中激活适当的智能体子集,从而进一步扩大了特征空间的探索。此外,我们还集成了一个包含程序记忆、反馈记忆和概念记忆的记忆模块,从而实现迭代改进,自适应地指导后续特征生成,并提高特征质量和多样性。在多个公共数据集上进行的大量实验表明,我们的方法优于最先进的基线。
🔬 方法详解
问题定义:论文旨在解决表格数据自动特征生成中,传统方法依赖预定义算子库,无法有效利用任务语义,以及基于LLM的方法特征空间受限且缺乏学习目标反馈的问题。现有方法难以生成多样且高质量的特征,限制了模型性能。
核心思路:论文的核心思路是利用大语言模型(LLM)的语义理解能力,结合多智能体系统和记忆增强机制,将特征生成过程分解为多个具有不同职责的智能体协同工作,并通过记忆模块实现迭代优化和反馈学习,从而扩展特征空间,提高特征质量和多样性。
技术框架:MALMAS包含以下主要模块:1) 多智能体系统:由多个具有不同职责的智能体组成,负责特征生成过程的不同方面。2) 路由代理:负责在每次迭代中激活适当的智能体子集,以扩大特征空间的探索。3) 记忆模块:包含程序记忆、反馈记忆和概念记忆,用于存储和检索特征生成过程中的信息,实现迭代改进和自适应指导。整体流程是,路由代理根据当前状态选择激活的智能体,智能体生成候选特征,记忆模块提供信息支持,生成的特征经过评估后,反馈信息被存储到记忆模块中,用于指导后续的特征生成。
关键创新:该方法最重要的技术创新点在于将多智能体系统与记忆增强机制相结合,用于自动特征生成。多智能体系统能够分解复杂的特征生成任务,扩大特征空间的探索范围;记忆增强机制能够存储和检索特征生成过程中的信息,实现迭代优化和反馈学习。与现有方法的本质区别在于,MALMAS能够更有效地利用任务语义和学习目标反馈,生成更具多样性和高质量的特征。
关键设计:记忆模块包含三种类型的记忆:程序记忆存储特征生成的操作步骤;反馈记忆存储特征评估的结果;概念记忆存储特征相关的领域知识。路由代理的选择策略基于LLM的上下文理解能力,根据当前状态和记忆模块中的信息,选择最合适的智能体子集。损失函数的设计考虑了特征的质量和多样性,鼓励生成既准确又具有差异性的特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MALMAS在多个公共数据集上显著优于现有的自动特征生成方法。例如,在某个数据集上,MALMAS的性能比最佳基线提高了10%以上。此外,实验还验证了记忆模块和多智能体系统的有效性,证明了它们对提高特征质量和多样性的重要作用。
🎯 应用场景
该研究成果可广泛应用于各种需要从表格数据中进行特征工程的机器学习任务,例如金融风控、医疗诊断、推荐系统等。通过自动生成高质量的特征,可以降低人工特征工程的成本,提高模型性能,并加速机器学习应用的开发和部署。未来,该方法可以进一步扩展到处理更复杂的数据类型,例如文本、图像等。
📄 摘要(原文)
Automated feature generation extracts informative features from raw tabular data without manual intervention and is crucial for accurate, generalizable machine learning. Traditional methods rely on predefined operator libraries and cannot leverage task semantics, limiting their ability to produce diverse, high-value features for complex tasks. Recent Large Language Model (LLM)-based approaches introduce richer semantic signals, but still suffer from a restricted feature space due to fixed generation patterns and from the absence of feedback from the learning objective. To address these challenges, we propose a Memory-Augmented LLM-based Multi-Agent System (\textbf{MALMAS}) for automated feature generation. MALMAS decomposes the generation process into agents with distinct responsibilities, and a Router Agent activates an appropriate subset of agents per iteration, further broadening exploration of the feature space. We further integrate a memory module comprising procedural memory, feedback memory, and conceptual memory, enabling iterative refinement that adaptively guides subsequent feature generation and improves feature quality and diversity. Extensive experiments on multiple public datasets against state-of-the-art baselines demonstrate the effectiveness of our approach. The code is available at https://github.com/fxdong24/MALMAS