Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution

📄 arXiv: 2505.20286v1 📥 PDF

作者: Jiahao Qiu, Xuan Qi, Tongcheng Zhang, Xinzhe Juan, Jiacheng Guo, Yifu Lu, Yimin Wang, Zixin Yao, Qihan Ren, Xun Jiang, Xing Zhou, Dongrui Liu, Ling Yang, Yue Wu, Kaixuan Huang, Shilong Liu, Hongru Wang, Mengdi Wang

分类: cs.AI

发布日期: 2025-05-26

备注: 9 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出Alita以解决现有智能体适应性不足的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 通用智能体 自我进化 任务推理 模型上下文协议 适应性 可扩展性

📋 核心要点

  1. 现有智能体系统过于依赖手动预定义的工具,导致适应性和可扩展性不足。
  2. Alita通过简化设计,仅使用一个组件进行问题解决,增强了智能体的自我进化能力。
  3. 在GAIA基准验证数据集上,Alita的表现优于许多复杂系统,显示出其强大的泛化能力。

📝 摘要(中文)

近年来,大型语言模型的进步使得智能体能够自主执行复杂的开放任务。然而,许多现有框架过于依赖手动预定义的工具和工作流程,限制了它们的适应性、可扩展性和跨领域的泛化能力。本文提出了Alita,一个遵循“简单是终极复杂”的原则的通用智能体,通过最小的预定义和最大的自我进化实现可扩展的智能推理。Alita仅配备一个直接解决问题的组件,简化了设计,增强了其对复杂问题的泛化能力。此外,Alita通过生成任务相关的模型上下文协议(MCPs),自主构建、优化和重用外部能力,进一步提升了智能推理的可扩展性。Alita在GAIA基准验证数据集上实现了75.15%的pass@1和87.27%的pass@3的准确率,表现优于许多复杂的智能体系统。

🔬 方法详解

问题定义:本文旨在解决现有智能体在执行复杂任务时对手动预定义工具的依赖问题,这限制了其适应性和跨领域的泛化能力。

核心思路:Alita的核心思想是通过最小化预定义和最大化自我进化,简化智能体的设计,使其能够更灵活地应对各种任务。

技术框架:Alita的整体架构包括一个直接问题解决的组件和一套通用组件,后者用于生成任务相关的模型上下文协议(MCPs),从而实现能力的自主构建和优化。

关键创新:Alita的主要创新在于其极简设计和自我进化能力,使其在处理复杂问题时不再受限于传统的工具和工作流程。

关键设计:在设计上,Alita采用了一种清晰的模块化结构,确保其能够灵活地生成和优化任务相关的能力,具体的参数设置和损失函数设计尚未详细披露。

🖼️ 关键图片

img_0

📊 实验亮点

Alita在GAIA基准验证数据集上取得了75.15%的pass@1和87.27%的pass@3的准确率,表现优于许多复杂的智能体系统,显示出其在智能推理方面的卓越能力。这一结果表明,Alita在简化设计的同时,仍能保持高效的任务执行能力。

🎯 应用场景

Alita的研究成果具有广泛的应用潜力,尤其在需要灵活应对复杂任务的领域,如自动化客服、智能助手和教育技术等。其自我进化能力可以使智能体在不断变化的环境中保持高效和适应性,未来可能推动智能体技术的进一步发展。

📄 摘要(原文)

Recent advances in large language models (LLMs) have enabled agents to autonomously perform complex, open-ended tasks. However, many existing frameworks depend heavily on manually predefined tools and workflows, which hinder their adaptability, scalability, and generalization across domains. In this work, we introduce Alita--a generalist agent designed with the principle of "Simplicity is the ultimate sophistication," enabling scalable agentic reasoning through minimal predefinition and maximal self-evolution. For minimal predefinition, Alita is equipped with only one component for direct problem-solving, making it much simpler and neater than previous approaches that relied heavily on hand-crafted, elaborate tools and workflows. This clean design enhances its potential to generalize to challenging questions, without being limited by tools. For Maximal self-evolution, we enable the creativity of Alita by providing a suite of general-purpose components to autonomously construct, refine, and reuse external capabilities by generating task-related model context protocols (MCPs) from open source, which contributes to scalable agentic reasoning. Notably, Alita achieves 75.15% pass@1 and 87.27% pass@3 accuracy, which is top-ranking among general-purpose agents, on the GAIA benchmark validation dataset, 74.00% and 52.00% pass@1, respectively, on Mathvista and PathVQA, outperforming many agent systems with far greater complexity. More details will be updated at $\href{https://github.com/CharlesQ9/Alita}{https://github.com/CharlesQ9/Alita}$.