Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents

📄 arXiv: 2502.04392v1 📥 PDF

作者: Chenyang Shao, Xinyuan Hu, Yutang Lin, Fengli Xu

分类: cs.CL, cs.AI

发布日期: 2025-02-06


💡 一句话要点

提出Division-of-Thoughts框架,利用混合语言模型协同提升端侧AI Agent效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端侧AI Agent 混合语言模型 任务分解 协同推理 自增强学习

📋 核心要点

  1. 现有方法难以在资源受限的端侧设备上部署大型语言模型,限制了端侧AI Agent的推理能力。
  2. Division-of-Thoughts框架通过任务分解、混合模型协同和自增强训练,实现了端侧SLM和云端LLM的有效协同。
  3. 实验表明,DoT在保持推理精度的同时,显著降低了推理时间和API成本,提升了端侧AI Agent的效率。

📝 摘要(中文)

随着网络内容的快速扩张,端侧AI助手对于帮助用户管理日益复杂的在线任务变得不可或缺。大型语言模型(LLM)中涌现的推理能力为下一代端侧AI Agent提供了一条有希望的路径。然而,在资源有限的本地设备上部署完整规模的LLM具有挑战性。本文提出了Division-of-Thoughts (DoT),这是一个协同推理框架,利用本地部署的小规模语言模型(SLM)和云端LLM之间的协同作用。DoT利用任务分解器来激发语言模型中固有的规划能力,将用户查询分解为更小的子任务,从而使混合语言模型能够充分利用各自的优势。此外,DoT采用任务调度器来分析子任务的成对依赖关系并创建依赖关系图,从而促进子任务的并行推理和关键步骤的识别。为了根据子任务的难度分配合适的模型,DoT利用即插即用适配器,这是一个附加到SLM的任务头,不会改变SLM的参数。为了提高适配器的任务分配能力,我们提出了一种完全依赖于任务执行反馈的自增强训练方法。在各种基准上的大量实验表明,我们的DoT显著降低了LLM成本,同时保持了具有竞争力的推理精度。具体来说,DoT将平均推理时间和API成本分别降低了66.12%和83.57%,同时实现了与最佳基线方法相当的推理精度。

🔬 方法详解

问题定义:论文旨在解决在资源受限的端侧设备上部署大型语言模型(LLM)的挑战,从而提升端侧AI Agent的推理能力。现有方法要么依赖于计算资源有限的本地模型,要么完全依赖云端LLM,前者性能受限,后者成本高昂且存在隐私问题。

核心思路:论文的核心思路是利用小型语言模型(SLM)和云端LLM的协同作用,通过任务分解和智能调度,将复杂任务分解为适合SLM处理的子任务和需要LLM处理的子任务,从而在保证推理精度的前提下,降低计算成本和延迟。

技术框架:DoT框架包含三个主要模块:1) 任务分解器 (Task Decomposer):将用户查询分解为更小的、可管理的子任务。2) 任务调度器 (Task Scheduler):分析子任务之间的依赖关系,构建依赖图,并支持并行推理。3) 即插即用适配器 (Plug-and-Play Adapter):附加在SLM上,用于任务分配,并利用自增强训练方法提升分配能力。整体流程是:用户查询经过任务分解器分解为子任务,任务调度器分析依赖关系并进行调度,即插即用适配器根据子任务难度分配给SLM或云端LLM处理,最终整合结果。

关键创新:DoT的关键创新在于混合语言模型的协同推理框架,它不同于以往要么完全依赖本地模型,要么完全依赖云端LLM的方法。通过任务分解和智能调度,DoT能够充分利用SLM和LLM的各自优势,实现性能和成本的平衡。此外,自增强训练方法能够有效提升适配器的任务分配能力。

关键设计:即插即用适配器是一个轻量级的任务头,附加在SLM上,不会改变SLM的原始参数。自增强训练方法利用任务执行反馈来优化适配器的任务分配策略。任务调度器通过分析子任务之间的依赖关系,构建依赖图,并支持并行推理,从而提高推理效率。具体的损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DoT框架在保持与最佳基线方法相当的推理精度下,将平均推理时间和API成本分别降低了66.12%和83.57%。这些数据表明DoT在降低LLM使用成本和提高推理效率方面具有显著优势,验证了混合语言模型协同推理的有效性。

🎯 应用场景

该研究成果可广泛应用于各种端侧AI Agent,例如智能家居助手、移动设备上的智能助理、可穿戴设备等。通过降低计算成本和延迟,DoT框架能够使这些Agent在资源受限的环境下提供更智能、更高效的服务,提升用户体验,并促进AI技术在边缘计算领域的应用。

📄 摘要(原文)

The rapid expansion of web content has made on-device AI assistants indispensable for helping users manage the increasing complexity of online tasks. The emergent reasoning ability in large language models offer a promising path for next-generation on-device AI agents. However, deploying full-scale Large Language Models (LLMs) on resource-limited local devices is challenging. In this paper, we propose Division-of-Thoughts (DoT), a collaborative reasoning framework leveraging the synergy between locally deployed Smaller-scale Language Models (SLMs) and cloud-based LLMs. DoT leverages a Task Decomposer to elicit the inherent planning abilities in language models to decompose user queries into smaller sub-tasks, which allows hybrid language models to fully exploit their respective strengths. Besides, DoT employs a Task Scheduler to analyze the pair-wise dependency of sub-tasks and create a dependency graph, facilitating parallel reasoning of sub-tasks and the identification of key steps. To allocate the appropriate model based on the difficulty of sub-tasks, DoT leverages a Plug-and-Play Adapter, which is an additional task head attached to the SLM that does not alter the SLM's parameters. To boost adapter's task allocation capability, we propose a self-reinforced training method that relies solely on task execution feedback. Extensive experiments on various benchmarks demonstrate that our DoT significantly reduces LLM costs while maintaining competitive reasoning accuracy. Specifically, DoT reduces the average reasoning time and API costs by 66.12% and 83.57%, while achieving comparable reasoning accuracy with the best baseline methods.