A Multi-Agent Framework for Code-Guided, Modular, and Verifiable Automated Machine Learning

📄 arXiv: 2602.13937v1 📥 PDF

作者: Dat Le, Duc-Cuong Le, Anh-Son Nguyen, Tuan-Dung Bui, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo

分类: cs.LG, cs.SE

发布日期: 2026-02-15


💡 一句话要点

iML:一个代码引导、模块化和可验证的自动化机器学习多智能体框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动化机器学习 多智能体系统 代码生成 模块化设计 契约式设计

📋 核心要点

  1. 现有AutoML框架缺乏透明性和灵活性,基于LLM的智能体易出现幻觉和逻辑纠缠,导致运行时错误。
  2. iML通过代码引导规划、模块化实现和可验证集成,将AutoML从黑盒转变为可控的架构范例。
  3. 实验表明,iML在多个benchmark上优于现有方法,即使在信息不完整的情况下也能保持较高的成功率。

📝 摘要(中文)

自动化机器学习(AutoML)已经彻底改变了数据驱动解决方案的开发。然而,传统的框架通常作为“黑盒”运行,缺乏复杂、真实世界工程任务所需的灵活性和透明度。最近基于大型语言模型(LLM)的智能体已经转向代码驱动的方法。但是,它们经常遭受幻觉逻辑和逻辑纠缠的困扰,其中单体代码生成导致无法恢复的运行时故障。本文提出了iML,一种新颖的多智能体框架,旨在将AutoML从黑盒提示转变为代码引导、模块化和可验证的架构范例。iML引入了三个主要思想:(1)代码引导的规划,它综合了一个基于自主经验分析的战略蓝图,以消除幻觉;(2)代码模块化实现,它将预处理和建模解耦为由严格接口契约管理的专用组件;(3)代码可验证的集成,它通过动态契约验证和迭代自校正来强制执行物理可行性。我们在MLE-BENCH和新引入的iML-BENCH上评估了iML,包括各种真实世界的Kaggle竞赛。实验结果表明,iML优于最先进的智能体,在MLE-BENCH上实现了85%的有效提交率和45%的有竞争力的奖牌率,平均标准化性能得分(APS)为0.77。在iML-BENCH上,iML的APS显著优于其他方法38%-163%。此外,即使在剥离的任务描述下,iML也能保持70%的强大成功率,通过经验分析有效地填补信息空白。这些结果突出了iML在随机生成和可靠工程之间架起桥梁的潜力,标志着朝着真正的AutoML迈出了有意义的一步。

🔬 方法详解

问题定义:论文旨在解决现有AutoML框架作为黑盒运行,缺乏透明性和灵活性,以及基于LLM的AutoML智能体容易产生幻觉逻辑和逻辑纠缠的问题。这些问题导致AutoML在复杂、真实世界的工程任务中难以应用,并且容易出现无法恢复的运行时错误。现有方法的痛点在于单体代码生成,缺乏模块化和验证机制。

核心思路:iML的核心思路是将AutoML过程分解为三个关键阶段:代码引导的规划、代码模块化实现和代码可验证的集成。通过这种方式,iML旨在消除LLM的幻觉,提高代码的可靠性和可维护性,并最终实现更可靠和可控的AutoML。这种设计借鉴了软件工程中的模块化和契约式设计思想,以提高AutoML系统的稳定性和可预测性。

技术框架:iML的技术框架是一个多智能体系统,包含以下主要模块: 1. 代码引导的规划 (Code-Guided Planning):利用自主经验分析生成战略蓝图,指导后续的代码生成过程,从而减少LLM的幻觉。 2. 代码模块化实现 (Code-Modular Implementation):将预处理和建模解耦为独立的模块,每个模块都有明确定义的接口契约,提高代码的可重用性和可维护性。 3. 代码可验证的集成 (Code-Verifiable Integration):通过动态契约验证和迭代自校正,确保各个模块之间的集成符合预期,从而提高系统的可靠性。

关键创新:iML最重要的技术创新点在于其将软件工程中的模块化和契约式设计原则引入到AutoML中。与现有方法相比,iML不是简单地依赖LLM生成单体代码,而是通过多智能体协作,将AutoML过程分解为可控的模块,并使用契约来保证模块之间的正确交互。这种方法有效地解决了LLM的幻觉问题,并提高了AutoML系统的可靠性和可维护性。

关键设计:具体的技术细节包括: * 经验分析:用于生成战略蓝图,指导代码生成,具体实现方式未知。 * 接口契约:定义了各个模块之间的输入输出规范,用于动态契约验证,具体契约形式未知。 * 动态契约验证:在运行时检查模块之间的交互是否符合契约,如果违反契约,则进行迭代自校正,具体实现方式未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,iML在MLE-BENCH上实现了85%的有效提交率和45%的奖牌率,平均标准化性能得分(APS)为0.77。在iML-BENCH上,iML的APS显著优于其他方法38%-163%。即使在剥离的任务描述下,iML也能保持70%的强大成功率。这些结果表明iML在可靠性和性能方面都优于现有方法。

🎯 应用场景

iML具有广泛的应用前景,可应用于各种数据驱动的解决方案开发,特别是在需要高可靠性和可维护性的复杂工程任务中。例如,在金融风险评估、医疗诊断和智能制造等领域,iML可以帮助自动化机器学习流程,同时保证结果的可靠性和可解释性。未来,iML有望成为构建可信赖AI系统的关键技术。

📄 摘要(原文)

Automated Machine Learning (AutoML) has revolutionized the development of data-driven solutions; however, traditional frameworks often function as "black boxes", lacking the flexibility and transparency required for complex, real-world engineering tasks. Recent Large Language Model (LLM)-based agents have shifted toward code-driven approaches. However, they frequently suffer from hallucinated logic and logic entanglement, where monolithic code generation leads to unrecoverable runtime failures. In this paper, we present iML, a novel multi-agent framework designed to shift AutoML from black-box prompting to a code-guided, modular, and verifiable architectural paradigm. iML introduces three main ideas: (1) Code-Guided Planning, which synthesizes a strategic blueprint grounded in autonomous empirical profiling to eliminate hallucination; (2) Code-Modular Implementation, which decouples preprocessing and modeling into specialized components governed by strict interface contracts; and (3) Code-Verifiable Integration, which enforces physical feasibility through dynamic contract verification and iterative self-correction. We evaluate iML across MLE-BENCH and the newly introduced iML-BENCH, comprising a diverse range of real-world Kaggle competitions. The experimental results show iML's superiority over state-of-the-art agents, achieving a valid submission rate of 85% and a competitive medal rate of 45% on MLE-BENCH, with an average standardized performance score (APS) of 0.77. On iML-BENCH, iML significantly outperforms the other approaches by 38%-163% in APS. Furthermore, iML maintains a robust 70% success rate even under stripped task descriptions, effectively filling information gaps through empirical profiling. These results highlight iML's potential to bridge the gap between stochastic generation and reliable engineering, marking a meaningful step toward truly AutoML.