CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device
作者: Yicheng Fu, Raviteja Anantha, Jianpeng Cheng
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-10-12
💡 一句话要点
CAMPHOR:用于多输入规划和高阶推理的设备端协作智能体框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 设备端推理 多智能体系统 小型语言模型 个性化助手 隐私保护
📋 核心要点
- 现有服务器端大型语言模型虽然擅长函数调用和复杂推理,但设备端部署小型语言模型面临精度和内存的挑战。
- CAMPHOR框架通过多智能体协作,利用分层架构分解任务,并结合参数共享和提示压缩来优化模型大小和性能。
- 实验结果表明,微调的设备端SLM智能体在个性化移动助手任务上,性能超越闭源LLM,同时保障用户隐私。
📝 摘要(中文)
本文提出CAMPHOR,一个创新的设备端小型语言模型(SLM)多智能体框架,旨在处理多个用户输入并在本地进行个人上下文推理,从而确保隐私。CAMPHOR采用分层架构,其中高阶推理智能体分解复杂任务,并协调负责个人上下文检索、工具交互和动态计划生成的专家智能体。通过跨智能体实施参数共享和利用提示压缩,显著降低了模型大小、延迟和内存使用。为了验证该方法,作者提出了一个新的数据集,该数据集捕获了以个性化移动助手用例为中心的多智能体任务轨迹。实验表明,微调的SLM智能体不仅在任务完成F1指标上超过了闭源LLM约35%,而且消除了服务器-设备通信的需求,同时增强了隐私。
🔬 方法详解
问题定义:现有方法依赖于服务器端的大型语言模型进行复杂推理和函数调用,这带来了延迟、隐私泄露以及对网络连接的依赖等问题。在设备端部署小型语言模型虽然可以解决这些问题,但小型语言模型的推理能力有限,难以处理复杂的多输入任务和进行高阶推理。
核心思路:CAMPHOR的核心思路是利用多智能体协作的方式,将复杂的任务分解为多个子任务,并分配给不同的专家智能体处理。通过高阶推理智能体进行任务分解和协调,以及专家智能体负责特定领域的知识和工具交互,从而提升设备端小型语言模型的推理能力。同时,通过参数共享和提示压缩等技术,降低模型大小和内存占用。
技术框架:CAMPHOR采用分层架构,包含以下几个主要模块:1) 高阶推理智能体:负责接收用户输入,将复杂任务分解为多个子任务,并协调专家智能体的工作。2) 专家智能体:包括个人上下文检索智能体、工具交互智能体和动态计划生成智能体等,分别负责不同的子任务。3) 知识库:存储用户的个人信息和上下文数据,供专家智能体检索和使用。整个流程如下:用户输入 -> 高阶推理智能体任务分解 -> 专家智能体执行子任务 -> 结果汇总 -> 返回用户。
关键创新:CAMPHOR的关键创新在于:1) 提出了一种基于多智能体协作的设备端推理框架,能够有效提升小型语言模型的推理能力。2) 通过参数共享和提示压缩等技术,显著降低了模型大小和内存占用,使其能够在设备端高效运行。3) 提出了一个新的数据集,用于评估多智能体任务的性能。
关键设计:CAMPHOR的关键设计包括:1) 智能体之间的通信协议,用于协调智能体之间的工作。2) 提示压缩算法,用于减少提示的长度,降低内存占用。3) 参数共享策略,用于减少模型参数的数量。具体的技术细节(如损失函数、网络结构等)在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在个性化移动助手任务上,微调的CAMPHOR框架中的SLM智能体在任务完成F1指标上超过了闭源LLM约35%。此外,CAMPHOR框架还消除了服务器-设备通信的需求,进一步增强了隐私保护。这些结果表明,CAMPHOR框架能够在设备端实现高性能和高隐私的复杂推理。
🎯 应用场景
CAMPHOR框架具有广泛的应用前景,例如个性化移动助手、智能家居控制、车载信息娱乐系统等。该框架能够在设备端进行复杂推理和任务规划,无需依赖服务器端,从而保护用户隐私并降低延迟。未来,该技术有望应用于更多需要本地化推理和隐私保护的场景。
📄 摘要(原文)
While server-side Large Language Models (LLMs) demonstrate proficiency in function calling and complex reasoning, deploying Small Language Models (SLMs) directly on devices brings opportunities to improve latency and privacy but also introduces unique challenges for accuracy and memory. We introduce CAMPHOR, an innovative on-device SLM multi-agent framework designed to handle multiple user inputs and reason over personal context locally, ensuring privacy is maintained. CAMPHOR employs a hierarchical architecture where a high-order reasoning agent decomposes complex tasks and coordinates expert agents responsible for personal context retrieval, tool interaction, and dynamic plan generation. By implementing parameter sharing across agents and leveraging prompt compression, we significantly reduce model size, latency, and memory usage. To validate our approach, we present a novel dataset capturing multi-agent task trajectories centered on personalized mobile assistant use-cases. Our experiments reveal that fine-tuned SLM agents not only surpass closed-source LLMs in task completion F1 by~35\% but also eliminate the need for server-device communication, all while enhancing privacy.