AXIS: Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents
作者: Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
分类: cs.AI
发布日期: 2024-09-25 (更新: 2025-05-19)
💡 一句话要点
AXIS:基于API优先的大语言模型智能体实现高效人机交互
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 大语言模型 智能体 API 自动化
📋 核心要点
- 现有基于MLLM的智能体依赖大量UI交互,导致高延迟和低可靠性,难以胜任复杂任务。
- AXIS框架优先利用API而非UI进行交互,并通过自动探索扩展API,提升效率和可靠性。
- 实验表明,AXIS在Microsoft Word任务中显著降低了任务完成时间和认知负荷,同时保持高准确率。
📝 摘要(中文)
多模态大语言模型(MLLM)使得基于LLM的智能体能够直接与应用程序用户界面(UI)交互,从而增强智能体在复杂任务中的性能。然而,由于大量的顺序UI交互,这些智能体通常面临高延迟和低可靠性的问题。为了解决这个问题,我们提出了AXIS,一种新颖的基于LLM的智能体框架,该框架优先通过应用程序编程接口(API)执行操作,而非UI操作。该框架还通过自动探索应用程序来促进API的创建和扩展。我们在Microsoft Word上的实验表明,与人类相比,AXIS将任务完成时间减少了65%-70%,认知负荷降低了38%-53%,同时保持了97%-98%的准确率。我们的工作贡献了一个新的人-智能体-计算机交互(HACI)框架,并探索了一个新的UI设计原则,使应用程序提供商能够在LLM时代将应用程序转变为智能体,从而为以智能体为中心的操作系统(Agent OS)铺平道路。
🔬 方法详解
问题定义:现有基于多模态大语言模型(MLLM)的智能体在与应用程序交互时,主要依赖用户界面(UI)操作。这种方式需要大量的顺序交互,导致任务完成时间长、延迟高、可靠性低,难以满足复杂任务的需求。现有的智能体框架缺乏对应用程序编程接口(API)的有效利用,未能充分发挥API在提高效率和可靠性方面的潜力。
核心思路:AXIS框架的核心思路是优先利用应用程序提供的API来执行操作,而不是直接操作UI。通过API,智能体可以更快速、更可靠地完成任务。为了解决API覆盖不足的问题,AXIS还具备自动探索应用程序并生成API的能力,从而扩展智能体的功能。这种API优先的设计能够显著减少交互步骤,降低延迟,并提高任务完成的准确性。
技术框架:AXIS框架包含以下主要模块:1) 任务理解模块:利用LLM理解用户任务,并将其分解为一系列API调用或UI操作。2) API选择模块:根据任务需求,选择合适的API来执行操作。如果API不可用,则尝试通过UI操作来完成任务。3) API生成模块:自动探索应用程序,识别潜在的API,并生成相应的API接口。4) 执行模块:执行选定的API调用或UI操作,并监控执行结果。5) 反馈模块:将执行结果反馈给LLM,用于后续决策和优化。
关键创新:AXIS框架的关键创新在于API优先的交互模式和自动API生成能力。与传统的UI驱动的智能体相比,AXIS能够更高效、更可靠地完成任务。自动API生成能力使得智能体能够适应不断变化的应用程序环境,并扩展其功能。这种创新性的设计为构建以智能体为中心的操作系统(Agent OS)奠定了基础。
关键设计:AXIS框架的关键设计包括:1) API优先级排序:根据API的效率和可靠性,对API进行优先级排序,优先选择高优先级的API。2) 自动API探索策略:采用基于LLM的探索策略,自动识别应用程序中的潜在API。3) API接口生成:利用LLM生成API的接口描述,包括输入参数、输出结果和功能描述。4) 错误处理机制:设计完善的错误处理机制,处理API调用失败或UI操作异常的情况。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AXIS在Microsoft Word任务中表现出色,与人类相比,任务完成时间减少了65%-70%,认知负荷降低了38%-53%,同时保持了97%-98%的准确率。这些数据充分证明了AXIS框架的有效性和优越性。与传统的UI驱动的智能体相比,AXIS在效率、可靠性和用户体验方面都有显著提升。
🎯 应用场景
AXIS框架具有广泛的应用前景,可应用于自动化办公、智能家居、客户服务等领域。例如,在自动化办公中,AXIS可以帮助用户自动完成文档编辑、数据分析等任务。在智能家居中,AXIS可以控制各种智能设备,实现智能化的生活体验。在客户服务中,AXIS可以自动回答客户问题,提供个性化的服务。未来,AXIS有望成为构建以智能体为中心的操作系统(Agent OS)的关键技术。
📄 摘要(原文)
Multimodal large language models (MLLMs) have enabled LLM-based agents to directly interact with application user interfaces (UIs), enhancing agents' performance in complex tasks. However, these agents often suffer from high latency and low reliability due to the extensive sequential UI interactions. To address this issue, we propose AXIS, a novel LLM-based agents framework that prioritize actions through application programming interfaces (APIs) over UI actions. This framework also facilitates the creation and expansion of APIs through automated exploration of applications. Our experiments on Microsoft Word demonstrate that AXIS reduces task completion time by 65%-70% and cognitive workload by 38%-53%, while maintaining accuracy of 97%-98% compared to humans. Our work contributes to a new human-agent-computer interaction (HACI) framework and explores a fresh UI design principle for application providers to turn applications into agents in the era of LLMs, paving the way towards an agent-centric operating system (Agent OS).