Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation

作者: Sunjae Lee, Junyoung Choi, Jungjae Lee, Munim Hasan Wasi, Hojun Choi, Steven Y. Ko, Sangeun Oh, Insik Shin

分类: cs.HC, cs.AI, cs.CL

发布日期: 2023-12-04 (更新: 2024-10-16)

💡 一句话要点

MobileGPT：利用类人记忆增强LLM，实现移动任务自动化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动任务自动化 大型语言模型 类人记忆 任务分解 子任务重用 上下文适应 人机交互

📋 核心要点

现有LLM在移动任务自动化中面临可靠性低和运营成本高的挑战，限制了其实际应用。
MobileGPT通过模拟人类的认知过程，将任务分解为可重用的子任务，从而提高效率和适应性。
实验表明，MobileGPT在自动化和学习新任务方面表现出色，同时显著降低了延迟和成本。

📝 摘要（中文）

本文提出了一种基于大型语言模型（LLM）的移动任务自动化器MobileGPT，它配备了类人应用程序记忆。MobileGPT模拟人类与移动应用程序交互的认知过程——探索、选择、推导和回忆。这种方法将任务分解为更小的、模块化的子任务，这些子任务可以被重用、重新排列和调整以适应各种目标，从而更精确、更有效地学习任务流程。使用在线LLM服务（GPT-3.5和GPT-4）实现了MobileGPT，并在包含18个移动应用程序的185个任务的数据集上评估了其性能。结果表明，MobileGPT能够以82.7%的准确率自动执行和学习新任务，并且能够以接近完美的准确率（98.75%）将其适应不同的上下文，同时与GPT-4驱动的基线相比，延迟和成本分别降低了62.5%和68.8%。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在移动任务自动化中存在的可靠性问题和高运营成本问题。现有的基于LLM的移动任务自动化方法通常依赖于端到端的生成，这导致了较高的错误率和计算成本，并且难以适应新的任务和上下文。

核心思路：论文的核心思路是模仿人类与移动应用程序交互的认知过程，即“探索、选择、推导和回忆”。通过将复杂的任务分解为更小的、模块化的子任务，并利用类人记忆来存储和检索这些子任务，MobileGPT能够更精确、更有效地学习任务流程，并适应不同的上下文。

技术框架：MobileGPT的整体架构包含以下四个主要阶段： 1. 探索（Explore）：LLM探索应用程序的界面，识别可交互的元素。 2. 选择（Select）：LLM根据当前的任务目标，选择最相关的交互元素。 3. 推导（Derive）：LLM从历史交互记录中推导出完成任务所需的子任务序列。 4. 回忆（Recall）：LLM从记忆中检索相关的子任务，并将其应用于新的任务。

关键创新：MobileGPT的关键创新在于其类人应用程序记忆的设计。这种记忆允许LLM存储和检索先前执行的任务的子任务，从而实现任务的重用和适应。与传统的端到端方法相比，MobileGPT的模块化方法更易于理解和调试，并且能够更好地泛化到新的任务和上下文。

关键设计：MobileGPT的关键设计包括： 1. 子任务的定义：每个子任务对应于一个特定的应用程序交互，例如点击一个按钮或输入文本。 2. 记忆的组织：记忆被组织成一个分层结构，其中每个节点代表一个子任务或任务序列。 3. 检索机制：使用基于语义相似度的检索机制来查找与当前任务最相关的子任务。

📊 实验亮点

MobileGPT在包含18个移动应用程序的185个任务的数据集上进行了评估，结果表明，MobileGPT能够以82.7%的准确率自动执行和学习新任务，并且能够以接近完美的准确率（98.75%）将其适应不同的上下文。与GPT-4驱动的基线相比，MobileGPT的延迟和成本分别降低了62.5%和68.8%。

🎯 应用场景

MobileGPT具有广泛的应用前景，可用于自动化各种移动任务，例如预订航班、管理日历、发送电子邮件等。它可以帮助用户节省时间和精力，提高工作效率。此外，MobileGPT还可以用于开发智能助手和自动化测试工具，从而进一步推动移动应用的发展。

📄 摘要（原文）

The advent of large language models (LLMs) has opened up new opportunities in the field of mobile task automation. Their superior language understanding and reasoning capabilities allow users to automate complex and repetitive tasks. However, due to the inherent unreliability and high operational cost of LLMs, their practical applicability is quite limited. To address these issues, this paper introduces MobileGPT, an innovative LLM-based mobile task automator equipped with a human-like app memory. MobileGPT emulates the cognitive process of humans interacting with a mobile app -- explore, select, derive, and recall. This approach allows for a more precise and efficient learning of a task's procedure by breaking it down into smaller, modular sub-tasks that can be re-used, re-arranged, and adapted for various objectives. We implement MobileGPT using online LLMs services (GPT-3.5 and GPT-4) and evaluate its performance on a dataset of 185 tasks across 18 mobile apps. The results indicate that MobileGPT can automate and learn new tasks with 82.7% accuracy, and is able to adapt them to different contexts with near perfect (98.75%) accuracy while reducing both latency and cost by 62.5% and 68.8%, respectively, compared to the GPT-4 powered baseline.

Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册