Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub

📄 arXiv: 2312.17294v3 📥 PDF

作者: Bohan Lyu, Xin Cong, Heyang Yu, Pan Yang, Yujia Qin, Yining Ye, Yaxi Lu, Zhong Zhang, Yukun Yan, Yankai Lin, Zhiyuan Liu, Maosong Sun

分类: cs.SE, cs.AI, cs.IR

发布日期: 2023-12-28 (更新: 2025-06-10)

备注: Accepted by ACL 2025 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出OpenAgent,通过自主集成GitHub工具增强LLM在开放域的任务解决能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 开放域任务 工具集成 自主代理 经验学习

📋 核心要点

  1. 现有LLM在开放域任务中,缺乏利用领域特定工具进行复杂计算和模拟的能力,限制了其应用。
  2. OpenAgent通过分层代理框架和双层经验学习机制,自主集成GitHub工具,提升LLM的开放域任务解决能力。
  3. 实验表明,OpenAgent显著优于现有基线方法,验证了其在开放域任务解决方面的有效性和效率。

📝 摘要(中文)

大型语言模型(LLMs)在传统自然语言处理任务中表现出色,但在需要复杂领域特定计算或模拟的问题上表现不佳。为LLMs配备外部工具以构建基于LLM的代理可以增强其能力,但现有方法缺乏灵活性,无法解决开放域中多样且不断变化的用户查询。目前,还没有数据集评估LLMs在需要工具解决的开放域知识上的能力。为此,我们引入了OpenAct基准来评估开放域任务解决能力,该基准建立在人类专家咨询和GitHub存储库的基础上。它包含339个问题,涵盖7个不同的领域,需要使用领域特定的方法来解决。实验表明,即使是最先进的LLMs和基于LLM的代理也表现出不令人满意的成功率,突显了对新方法的需求。此外,我们提出了OpenAgent,一种新型的基于LLM的代理系统,可以通过自主集成GitHub中的专用工具来解决开放域中不断变化的查询。OpenAgent采用1)一个分层框架,其中专门的代理处理特定的任务,并且可以将任务分配给下级代理,2)一个双层经验学习机制,从人类和自身的经验中学习以解决工具缺陷。实验证明了其卓越的有效性和效率,明显优于基线。我们的数据和代码在https://github.com/OpenBMB/OpenAct开源。

🔬 方法详解

问题定义:论文旨在解决LLM在开放域任务中,由于缺乏领域特定知识和工具,导致无法有效解决复杂计算和模拟问题。现有方法要么依赖预定义的工具集,要么缺乏从经验中学习和适应的能力,难以应对开放域中不断变化的查询需求。

核心思路:论文的核心思路是构建一个能够自主集成GitHub上可用工具的LLM代理系统。该系统通过分层代理结构和双层经验学习机制,实现对领域特定工具的动态发现、选择和优化,从而提升LLM在开放域任务中的解决能力。

技术框架:OpenAgent采用分层代理框架,包含一个顶层代理和多个下级代理。顶层代理负责接收用户查询,并将其分解为子任务。然后,顶层代理根据子任务的需求,将任务分配给合适的下级代理。下级代理负责利用集成的GitHub工具解决特定的子任务。系统还包含一个双层经验学习机制,用于从人类反馈和自身经验中学习,以优化工具的使用和任务分配策略。

关键创新:OpenAgent的关键创新在于其自主集成GitHub工具的能力。与现有方法相比,OpenAgent无需预定义工具集,而是能够根据用户查询的需要,动态地从GitHub上搜索、选择和集成合适的工具。此外,双层经验学习机制使得OpenAgent能够不断学习和适应,从而提高其在开放域任务中的解决能力。

关键设计:OpenAgent的关键设计包括:1) 基于LLM的工具搜索和选择模块,用于从GitHub上发现和选择合适的工具;2) 分层代理结构,用于将复杂任务分解为子任务,并分配给合适的代理;3) 双层经验学习机制,用于从人类反馈和自身经验中学习,以优化工具的使用和任务分配策略。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知内容。

📊 实验亮点

OpenAgent在OpenAct基准测试中取得了显著的性能提升,明显优于现有的LLM和基于LLM的代理。具体的性能数据和提升幅度在论文中有所体现,但此处未给出具体数值。实验结果表明,OpenAgent能够有效地利用GitHub上的工具解决开放域任务,验证了其有效性和效率。

🎯 应用场景

OpenAgent具有广泛的应用前景,例如智能客服、科学研究助手、自动化软件开发等。它可以帮助用户解决各种需要领域特定知识和工具的复杂问题,提高工作效率和问题解决能力。未来,OpenAgent可以进一步扩展到更多的领域,并与其他技术相结合,例如机器人、物联网等,实现更智能化的应用。

📄 摘要(原文)

Large Language Models (LLMs) excel in traditional natural language processing tasks but struggle with problems that require complex domain-specific calculations or simulations. While equipping LLMs with external tools to build LLM-based agents can enhance their capabilities, existing approaches lack the flexibility to address diverse and ever-evolving user queries in open domains. Currently, there is also no existing dataset that evaluates LLMs on open-domain knowledge that requires tools to solve. To this end, we introduce OpenAct benchmark to evaluate the open-domain task-solving capability, which is built on human expert consultation and repositories in GitHub. It comprises 339 questions spanning 7 diverse domains that need to be solved with domain-specific methods. In our experiments, even state-of-the-art LLMs and LLM-based agents demonstrate unsatisfactory success rates, underscoring the need for a novel approach. Furthermore, we present OpenAgent, a novel LLM-based agent system that can tackle evolving queries in open domains through autonomously integrating specialized tools from GitHub. OpenAgent employs 1) a hierarchical framework where specialized agents handle specific tasks and can assign tasks to inferior agents, 2) a bi-level experience learning mechanism to learn from both humans' and its own experiences to tackle tool flaws. Experiments demonstrate its superior effectiveness and efficiency, which significantly outperforms baselines. Our data and code are open-source at https://github.com/OpenBMB/OpenAct.