Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance
作者: Antoine Grosnit, Alexandre Maraval, Refinath S N, Zichao Zhao, James Doran, Giuseppe Paolo, Albert Thomas, Jonas Gonzalez, Abhineet Kumar, Khyati Khandelwal, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balázs Kégl, Haitham Bou-Ammar, Jun Wang
分类: cs.LG, cs.AI
发布日期: 2024-11-05 (更新: 2025-09-15)
💡 一句话要点
Agent K:基于Kolb学习和Vygotsky ZPD的通用智能体,达到Kaggle数据科学人类水平
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用人工智能 经验学习 Kolb学习周期 Vygotsky ZPD LLM智能体 数据科学 Kaggle竞赛
📋 核心要点
- 现有LLM智能体依赖静态预训练或僵化流程,缺乏持续适应性,无法有效解决复杂任务。
- 论文提出基于Kolb学习周期和Vygotsky ZPD的计算框架,分离外在交互和内在反思,实现认知基础的支架式学习。
- Agent K在Kaggle数据科学竞赛中表现出色,Elo-MMR分数超过Kaggle Masters中位数,证明了方法的有效性。
📝 摘要(中文)
人类的专业知识是通过迭代的交互、反思和内部模型更新周期而产生的,这些是诸如Kolb的经验学习和Vygotsky的最近发展区等认知理论的核心。相比之下,当前的人工智能系统,特别是LLM智能体,依赖于静态的预训练或僵化的工作流程,缺乏持续适应的机制。最近的研究发现LLM智能体中存在早期认知特征(反思、修正和自我纠正),表明了类人经验学习的基础要素。因此,关键问题是:我们能否设计出能够进行类似于人类过程的结构化、认知基础学习的LLM智能体?为了解决这个问题,我们提出了一个基于Kolb学习周期和Vygotsky ZPD的自主智能体计算框架。我们的架构分离了外在(环境交互)和内在(内部反思/抽象)功能,实现了认知基础的支架式学习,智能体首先在结构化环境中学习,然后在开放式环境中进行泛化。这种方法使智能体能够掌握复杂的任务;传统的微调或简单的反思方法无法有效解决这些领域的问题。通过与人类在真实世界的Kaggle数据科学竞赛中进行直接比较,有力地证明了其潜力。我们的系统Agent K在81个任务中学习了完全自动化的数据科学代码生成,展示了自主执行整个工作流程的能力,实现了1694的Elo-MMR分数,超过了我们研究中Kaggle Masters(20万用户中排名前2%)的中位数分数。Agent K获得了9个金牌、8个银牌和12个铜牌级别的性能——包括在颁奖竞赛中获得的4个金牌和4个银牌——是第一个成功整合Kolb和Vygotsky启发的人类认知学习的人工智能系统,标志着迈向通用人工智能的重要一步。
🔬 方法详解
问题定义:论文旨在解决如何使LLM智能体具备类似于人类的持续学习和适应能力,从而能够自主完成复杂的数据科学任务。现有方法,如静态预训练和简单微调,无法满足这种需求,因为它们缺乏有效的反思和知识迁移机制。现有方法的痛点在于无法模拟人类在实践中学习和改进的认知过程。
核心思路:论文的核心思路是借鉴Kolb的经验学习周期和Vygotsky的最近发展区(ZPD)理论,构建一个能够进行结构化、认知基础学习的LLM智能体。通过分离环境交互(外在)和内部反思/抽象(内在)功能,实现智能体的持续学习和泛化能力。这种设计旨在模拟人类在学习过程中不断尝试、反思和改进的认知过程。
技术框架:Agent K的整体架构包含以下主要模块:1) 环境交互模块:负责与Kaggle数据科学竞赛环境进行交互,执行数据处理、模型训练等任务。2) 反思模块:负责对环境交互的结果进行分析和反思,识别错误和改进方向。3) 抽象模块:负责将反思的结果抽象成通用的知识和策略,用于指导未来的学习。4) 知识库:存储学习到的知识和策略,供智能体在后续任务中使用。智能体首先在结构化环境中学习,然后在开放式环境中进行泛化。
关键创新:最重要的技术创新点在于将Kolb的经验学习周期和Vygotsky的ZPD理论融入到LLM智能体的设计中,使其具备了认知基础的学习能力。与现有方法的本质区别在于,Agent K能够通过反思和抽象,不断改进自身的知识和策略,从而实现持续学习和泛化。
关键设计:Agent K的关键设计包括:1) 使用LLM作为核心的知识表示和推理引擎。2) 设计了专门的反思和抽象模块,用于分析环境交互的结果并提取通用知识。3) 构建了一个知识库,用于存储学习到的知识和策略。4) 使用强化学习来优化智能体的学习策略。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述,但此处未提供。
🖼️ 关键图片
📊 实验亮点
Agent K在81个Kaggle数据科学任务中表现出色,实现了1694的Elo-MMR分数,超过了Kaggle Masters的中位数水平(排名前2%)。它获得了9个金牌、8个银牌和12个铜牌,包括在颁奖竞赛中获得的4个金牌和4个银牌。这些结果表明,Agent K是第一个成功整合Kolb和Vygotsky启发的人类认知学习的人工智能系统,在自动化数据科学领域达到了人类水平。
🎯 应用场景
该研究成果可应用于各种需要持续学习和适应能力的通用人工智能场景,例如:自动化数据科学、智能客服、机器人控制、以及其他需要与复杂环境交互的领域。通过模拟人类的认知学习过程,可以构建更加智能、灵活和可靠的AI系统,从而提高生产效率和服务质量,并最终推动通用人工智能的发展。
📄 摘要(原文)
Human expertise emerges through iterative cycles of interaction, reflection, and internal model updating, which are central to cognitive theories such as Kolb's experiential learning and Vygotsky's zone of proximal development. In contrast, current AI systems, particularly LLM agents, rely on static pre-training or rigid workflows, lacking mechanisms for continual adaptation. Recent studies identified early cognitive traits in LLM agents (reflection, revision, and self-correction) suggesting foundational elements of human-like experiential learning. Thus the key question: Can we design LLM agents capable of structured, cognitively grounded learning similar to human processes? In response, we propose a computational framework of Kolb's learning cycle with Vygotsky's ZPD for autonomous agents. Our architecture separates extrinsic (environment interaction) and intrinsic (internal reflection/abstraction) functions, enabling cognitively grounded scaffolded learning, where the agent initially learns within structured environments, followed by open-ended generalisation. This approach empowers agents to master complex tasks ; domains that traditional fine-tuning or simple reflective methods could not tackle effectively. Its potential is powerfully demonstrated via direct comparison with humans in real-world Kaggle data science competitions. Learning fully automated data science code generation across 81 tasks, our system, Agent K, demonstrated the ability to perform the entire workflow autonomously, achieving an Elo-MMR score of 1694, beyond median score of the Kaggle Masters (the top 2% among 200,000 users) of our study. With 9 gold, 8 silver, and 12 bronze medals level performance - including 4 gold and 4 silver on prize-awarding competitions - Agent K is the 1st AI system to successfully integrate Kolb- and Vygotsky-inspired human cognitive learning, marking a major step toward generalist AI.