Native LLM and MLLM Inference at Scale on Apple Silicon
作者: Wayner Barrios
分类: cs.LG, cs.DC, cs.ET
发布日期: 2026-01-27
💡 一句话要点
vllm-mlx:在Apple Silicon上高效进行LLM和MLLM原生推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Apple Silicon LLM推理 MLLM推理 多模态学习 内容缓存 MLX框架 原生优化 高效推理
📋 核心要点
- 现有工具在Apple Silicon上进行LLM和MLLM推理时,要么缺乏原生优化,要么仅支持文本模型,无法满足多模态需求。
- vllm-mlx框架基于MLX原生构建,通过内容哈希进行图像识别,消除冗余视觉编码,实现高效推理。
- 实验表明,vllm-mlx在文本模型和多模态模型上均实现了显著的性能提升,尤其是在重复图像查询和视频分析方面。
📝 摘要(中文)
Apple Silicon在机器学习开发中的日益普及,催生了对其独特统一内存架构的高效推理解决方案的需求。然而,现有工具要么缺乏原生优化(PyTorch MPS),要么仅关注文本模型(llama.cpp),导致多模态工作负载得不到充分支持。我们提出了vllm-mlx,一个构建于MLX之上的框架,用于在Apple Silicon上高效地进行LLM和MLLM推理。对于文本模型,我们实现了比llama.cpp高21%到87%的吞吐量,模型范围从Qwen3-0.6B到Nemotron-30B,同时提供连续批处理,在16个并发请求下可扩展到4.3倍的聚合吞吐量。对于多模态模型,我们引入了基于内容的prefix caching,通过内容哈希识别相同的图像,从而消除冗余的视觉编码,而无需考虑输入格式。在Apple M4 Max上的评估表明,文本模型的吞吐量高达每秒525个token,重复图像查询的速度提高了28倍,从而将多模态延迟从21.7秒降低到1秒以下。对多达64帧的视频分析实现了24.7倍的缓存加速。我们将我们的实现开源,以支持在消费级Apple硬件上进行高效推理。
🔬 方法详解
问题定义:现有方法在Apple Silicon上进行LLM和MLLM推理时存在效率问题。PyTorch MPS缺乏原生优化,而llama.cpp仅支持文本模型,无法充分利用Apple Silicon的统一内存架构,导致多模态任务的推理速度慢,延迟高。因此,需要一种专门为Apple Silicon优化的、能够同时支持LLM和MLLM的高效推理框架。
核心思路:vllm-mlx的核心思路是利用MLX框架在Apple Silicon上进行原生构建,从而充分利用其硬件特性。对于多模态模型,通过引入基于内容的prefix caching,避免对相同图像的重复编码,从而显著提高推理效率。这种设计旨在减少计算冗余,提高吞吐量,并降低延迟。
技术框架:vllm-mlx框架主要包含两个部分:LLM推理引擎和MLLM推理引擎。LLM推理引擎基于MLX构建,支持连续批处理,能够高效地处理文本模型的推理请求。MLLM推理引擎则在LLM推理引擎的基础上,增加了对多模态输入的支持,并引入了基于内容的prefix caching机制。整体流程为:接收输入(文本或多模态数据),进行预处理,利用相应的推理引擎进行推理,最后输出结果。
关键创新:该论文的关键创新在于针对多模态模型提出的基于内容的prefix caching机制。与传统的prefix caching不同,该方法通过内容哈希识别相同的图像,而无需考虑输入格式。这意味着即使图像以不同的格式或在不同的上下文中出现,只要其内容相同,就可以直接从缓存中获取编码结果,从而避免重复计算。
关键设计:内容哈希算法的选择是关键设计之一,需要选择一种能够有效区分不同图像,同时对相似图像具有鲁棒性的哈希算法。此外,缓存的大小和替换策略也需要仔细设计,以保证缓存的命中率和效率。对于连续批处理,需要设计高效的调度算法,以最大化GPU的利用率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,vllm-mlx在文本模型上实现了比llama.cpp高21%到87%的吞吐量,在16个并发请求下可扩展到4.3倍的聚合吞吐量。对于多模态模型,重复图像查询的速度提高了28倍,将延迟从21.7秒降低到1秒以下。对多达64帧的视频分析实现了24.7倍的缓存加速。这些数据表明,vllm-mlx在Apple Silicon上实现了显著的性能提升。
🎯 应用场景
该研究成果可广泛应用于各种需要高效LLM和MLLM推理的场景,例如智能助手、图像搜索、视频分析、机器人导航等。通过在消费级Apple硬件上实现高效推理,可以降低部署成本,并促进AI技术在移动设备和边缘设备上的普及。未来,该技术有望进一步扩展到其他硬件平台,并支持更多类型的多模态模型。
📄 摘要(原文)
The growing adoption of Apple Silicon for machine learning development has created demand for efficient inference solutions that leverage its unique unified memory architecture. However, existing tools either lack native optimization (PyTorch MPS) or focus solely on text models (llama.cpp), leaving multimodal workloads underserved. We present vllm-mlx, a framework for efficient LLM and MLLM inference on Apple Silicon built natively on MLX. For text models, we achieve 21% to 87% higher throughput than llama.cpp across models ranging from Qwen3-0.6B to Nemotron-30B, while providing continuous batching that scales to 4.3x aggregate throughput at 16 concurrent requests. For multimodal models, we introduce content-based prefix caching that eliminates redundant vision encoding by identifying identical images through content hashing, regardless of input format. Our evaluation on Apple M4 Max demonstrates throughput of up to 525 tokens per second on text models and 28x speedup on repeated image queries, reducing multimodal latency from 21.7 seconds to under 1 second. Video analysis with up to 64 frames achieves 24.7x cache speedup. We release our implementation as open source to support efficient inference on consumer Apple hardware.