A Survey on Collaborative Mechanisms Between Large and Small Language Models

作者: Yi Chen, JiaHao Zhao, HaoHao Han

分类: cs.AI, cs.CL

发布日期: 2025-05-12

💡 一句话要点

综述LLM与SLM协同机制，探索高效、可定制的边缘AI应用

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 小型语言模型 模型协同 边缘计算 知识蒸馏

📋 核心要点

现有大型语言模型部署成本高、延迟大，小型语言模型性能不足，无法满足边缘设备需求。
论文综述了LLM与SLM协同工作的各种机制，旨在结合两者的优势，实现高效且适应性强的AI应用。
论文分析了LLM-SLM协同在低延迟、隐私保护、个性化和离线操作等方面的应用，并探讨了未来发展方向。

📝 摘要（中文）

大型语言模型(LLM)具有强大的AI能力，但由于高资源成本和延迟，部署面临挑战。小型语言模型(SLM)在降低性能的同时，提供了效率和可部署性。LLM和SLM之间的协作成为一种关键范式，可以协同平衡这些权衡，从而实现先进的AI应用，尤其是在资源受限的边缘设备上。本综述全面概述了LLM-SLM协作，详细介绍了各种交互机制(pipeline, routing, auxiliary, distillation, fusion)，关键使能技术，以及由低延迟、隐私、个性化和离线操作等设备端需求驱动的各种应用场景。在强调创建更高效、适应性更强和更易于访问的AI的巨大潜力的同时，我们还讨论了持续存在的挑战，包括系统开销、模型间一致性、鲁棒的任务分配、评估复杂性以及安全/隐私问题。未来的方向指向更智能的自适应框架、更深层次的模型融合以及扩展到多模态和具身AI，将LLM-SLM协作定位为下一代实用且无处不在的人工智能的关键驱动力。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）虽然能力强大，但在资源受限的边缘设备上部署面临高计算成本和高延迟的挑战。小型语言模型（SLM）虽然效率高，但性能不足以满足复杂任务的需求。因此，如何有效结合LLM和SLM的优势，在边缘设备上实现高性能且低延迟的AI应用是一个关键问题。

核心思路：论文的核心思路是探索LLM和SLM之间的协同机制，通过不同的交互方式，让LLM负责复杂推理和知识提供，而SLM负责快速响应和本地执行。这种协同方式旨在平衡性能和效率，从而在边缘设备上实现更佳的AI体验。

技术框架：论文综述了五种主要的LLM-SLM协同框架：Pipeline（流水线式）、Routing（路由式）、Auxiliary（辅助式）、Distillation（蒸馏式）和Fusion（融合式）。Pipeline框架中，LLM和SLM依次处理任务；Routing框架根据任务难度将任务分配给LLM或SLM；Auxiliary框架利用LLM辅助SLM的训练或推理；Distillation框架将LLM的知识迁移到SLM；Fusion框架则将LLM和SLM的输出进行融合。

关键创新：该综述的关键创新在于系统性地整理和分析了LLM和SLM协同工作的各种机制，并从边缘计算的需求出发，探讨了这些机制在实际应用中的优势和挑战。此外，论文还指出了未来研究方向，例如更智能的自适应框架、更深层次的模型融合以及扩展到多模态和具身AI。

关键设计：论文重点关注不同协同机制的设计，例如在Routing框架中，如何设计有效的任务分配策略，以确保任务能够被分配给最合适的模型。在Distillation框架中，如何选择合适的蒸馏方法，以最大程度地保留LLM的知识并迁移到SLM。此外，论文还讨论了各种协同机制在系统开销、模型间一致性、鲁棒性等方面的考虑因素。

🖼️ 关键图片

📊 实验亮点

该综述全面梳理了LLM与SLM协同的五种主要机制，并深入分析了它们在边缘计算场景下的优势与挑战。论文强调了低延迟、隐私保护、个性化和离线操作等关键需求，并指出了未来研究方向，为相关领域的研究人员提供了有价值的参考。

🎯 应用场景

LLM-SLM协同机制在边缘计算领域具有广泛的应用前景，例如智能家居、自动驾驶、移动医疗等。通过将LLM的强大能力与SLM的高效性相结合，可以在资源受限的设备上实现更智能、更个性化的服务。未来的发展将推动边缘AI的普及，并为用户带来更便捷、更安全的体验。

📄 摘要（原文）

Large Language Models (LLMs) deliver powerful AI capabilities but face deployment challenges due to high resource costs and latency, whereas Small Language Models (SLMs) offer efficiency and deployability at the cost of reduced performance. Collaboration between LLMs and SLMs emerges as a crucial paradigm to synergistically balance these trade-offs, enabling advanced AI applications, especially on resource-constrained edge devices. This survey provides a comprehensive overview of LLM-SLM collaboration, detailing various interaction mechanisms (pipeline, routing, auxiliary, distillation, fusion), key enabling technologies, and diverse application scenarios driven by on-device needs like low latency, privacy, personalization, and offline operation. While highlighting the significant potential for creating more efficient, adaptable, and accessible AI, we also discuss persistent challenges including system overhead, inter-model consistency, robust task allocation, evaluation complexity, and security/privacy concerns. Future directions point towards more intelligent adaptive frameworks, deeper model fusion, and expansion into multimodal and embodied AI, positioning LLM-SLM collaboration as a key driver for the next generation of practical and ubiquitous artificial intelligence.

A Survey on Collaborative Mechanisms Between Large and Small Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理