Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

📄 arXiv: 2606.06453v1 📥 PDF

作者: Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen

分类: cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出Vortex以解决稀疏注意力算法部署效率问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稀疏注意力 大型语言模型 算法优化 高效计算 自然语言处理 系统设计 性能提升

📋 核心要点

  1. 现有稀疏注意力算法在大规模部署和评估时面临高工程成本,限制了研究的进展。
  2. Vortex通过结合Python前端语言和页面中心张量抽象,简化了稀疏注意力算法的表达和实现。
  3. 实验表明,Vortex能够使算法吞吐量提升至3.46倍,同时在新架构和超大模型上实现显著性能提升。

📝 摘要(中文)

稀疏注意力在处理大型语言模型(LLMs)时变得愈发重要,尤其是在生成长度不断增长的背景下。然而,新的稀疏注意力算法在大规模部署和评估时仍然面临高工程成本,限制了研究人员和AI代理的探索。为了解决这一挑战,本文提出了Vortex,一个结合了嵌入Python前端语言和页面中心张量抽象的系统,能够高效表达多种稀疏注意力算法,并与现代LLM服务栈紧密集成。Vortex加速了稀疏注意力算法的快速原型开发、部署和评估,将理论效率提升有效转化为实际吞吐量改进。

🔬 方法详解

问题定义:本文旨在解决稀疏注意力算法在大规模部署中的高工程成本和复杂性,现有方法难以快速迭代和评估。

核心思路:Vortex通过提供一个结合Python的前端语言和页面中心张量抽象的系统,使得稀疏注意力算法的表达和实现变得更加高效和灵活,从而加速算法的开发和评估过程。

技术框架:Vortex的整体架构包括前端语言用于算法表达、后端高效集成到现代LLM服务栈的模块,支持快速原型开发和评估。

关键创新:Vortex的主要创新在于其能够将理论上的效率提升有效转化为实际的吞吐量改进,尤其是在处理大型语言模型时。

关键设计:Vortex的设计包括对稀疏注意力算法的灵活表达、与现有服务栈的紧密集成,以及支持多种新兴架构和超大模型的能力。具体的参数设置和网络结构细节在论文中进行了详细讨论。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Vortex的实验结果显示,使用该系统生成的最佳稀疏注意力算法在吞吐量上比全注意力高出3.46倍,同时在MLA基础的GLM-4.7-Flash上实现了4.7倍的吞吐量提升,在229B参数的MiniMax-M2.7上提升了1.37倍,展现了显著的性能优势。

🎯 应用场景

Vortex的研究成果在多个领域具有潜在应用价值,尤其是在需要处理大规模文本生成和理解的任务中。其高效的稀疏注意力算法能够显著提升大型语言模型的性能,推动自然语言处理、对话系统和智能助手等领域的发展。

📄 摘要(原文)

Sparse attention is becoming increasingly important for serving large language models (LLMs) as generation lengths continue to grow. However, deploying and evaluating new sparse attention algorithms at scale remains highly engineering-intensive, slowing both human researchers and AI agents in exploring the sparse attention design. To address this challenge, we present Vortex, a system that combines a Python-embedded frontend language atop a page-centric tensor abstraction for expressing a broad range of sparse attention algorithms, with an efficient backend tightly integrated into modern LLM serving stacks. Vortex enables rapid prototyping, deployment, and evaluation of sparse attention algorithms, effectively translating their theoretical efficiency gains into real-world throughput improvements. As a result, Vortex substantially accelerates the design and iteration of sparse attention algorithms. First, AI agents use Vortex to automatically generate and refine diverse algorithms, the best reaching up to $3.46\times$ higher throughput than full attention while preserving accuracy. Second, Vortex extends sparse attention to emerging architectures and very large models that are otherwise hard to experiment with, reaching up to $4.7\times$ higher throughput on the MLA-based GLM-4.7-Flash and $1.37\times$ on the 229B-parameter MiniMax-M2.7 on NVIDIA B200 GPUs.