OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models

📄 arXiv: 2605.11678v1 📥 PDF

作者: Seungwoo Roh, Huiyeong Kim, Jong-Chan Kim

分类: cs.AI

发布日期: 2026-05-12

备注: Submitted to IEEE RTCSA on March 26, 2026 (KST); Accepted on May 4, 2026 (KST)


💡 一句话要点

提出OOM-Free Alpamayo框架,通过CPU-GPU内存交换实现VLA模型在低显存GPU上的高效推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 内存管理 CPU-GPU内存交换 低显存GPU 自动驾驶

📋 核心要点

  1. 端到端VLA模型参数量巨大,在消费级GPU上运行时面临显存不足的挑战,限制了其在自动驾驶等领域的应用。
  2. Alpamayo框架通过顺序和流水线需求分层,以及GPU常驻层决策策略,实现了VLA模型在CPU和GPU之间的内存高效交换。
  3. 实验表明,Alpamayo框架在RTX 5070Ti上运行Alpamayo-R1-10B模型时,相比Accelerate offloading,实现了显著的加速效果。

📝 摘要(中文)

本文提出了一种名为OOM-Free Alpamayo的框架,旨在解决端到端视觉-语言-动作(VLA)模型在资源受限的GPU上进行推理时,因显存不足(OOM)而无法运行的问题。VLA模型在自动驾驶等领域表现出色,但其庞大的参数规模(20-60GB)远超消费级GPU的显存容量(12-16GB)。该框架通过纯系统级优化,无需修改模型本身,即可实现高效的VLA推理。具体而言,该方法包含三个阶段:(1)顺序需求分层(Sequential Demand Layering),将显存使用粒度从模型级别降低到层级别;(2)流水线需求分层(Pipelined Demand Layering),通过传输-计算重叠来隐藏参数传输时间;(3)GPU常驻层决策策略(GPU-Resident Layer Decision Policy),基于模块常驻收益分析,消除流水线无法隐藏的剩余传输开销。此外,还提出了一个性能预测模型,通过单次 profiling 即可确定最佳配置(常驻层的数量和位置),预测误差小于1.3%。在配备RTX 5070Ti(16GB显存)的GPU上,对NVIDIA的Alpamayo-R1-10B(21.52GB)模型进行测试,该方法在保持BF16精度的情况下,实现了高达3.55倍的加速,优于Accelerate offloading。

🔬 方法详解

问题定义:VLA模型在自动驾驶等领域展现出强大的能力,但其模型规模庞大,通常需要20-60GB的GPU显存。然而,消费级GPU的显存容量通常只有12-16GB,这导致VLA模型无法直接在这些设备上进行推理,限制了其应用范围。现有方法,如模型并行或量化,通常需要修改模型结构或牺牲精度,而简单的offloading方法则效率低下。

核心思路:Alpamayo框架的核心思路是在不修改模型结构的前提下,通过系统级的优化,实现VLA模型在CPU和GPU之间的内存高效交换。该框架将模型按层划分,并根据每一层的计算需求动态地将参数从CPU传输到GPU,并在计算完成后释放GPU显存。通过流水线技术和常驻层策略,进一步减少了数据传输的开销。

技术框架:Alpamayo框架包含三个主要阶段:1. 顺序需求分层(Sequential Demand Layering):将模型分解为多个层,并按顺序执行。每一层在执行前,将其所需的参数从CPU传输到GPU,执行完成后释放GPU显存。2. 流水线需求分层(Pipelined Demand Layering):通过将参数传输与层计算重叠,隐藏参数传输的时间开销。在计算当前层的同时,预取下一层所需的参数。3. GPU常驻层决策策略(GPU-Resident Layer Decision Policy):根据每一层的计算量和数据传输量,决定哪些层应该常驻在GPU显存中,以进一步减少数据传输的开销。该策略基于模块常驻收益分析,选择收益最高的层常驻。

关键创新:Alpamayo框架的关键创新在于其系统级的优化方法,无需修改模型结构即可实现高效的内存管理。通过顺序和流水线需求分层,以及GPU常驻层决策策略,该框架能够充分利用CPU和GPU的资源,在显存受限的GPU上运行大型VLA模型。此外,性能预测模型的提出,使得能够快速找到最佳的配置,进一步提升了推理效率。

关键设计:GPU常驻层决策策略是关键设计之一。该策略通过分析每个模块的计算量和数据传输量,计算其常驻在GPU上的收益。收益的计算考虑了数据传输的开销和计算加速的收益。性能预测模型通过单次 profiling 即可预测不同配置下的性能,从而选择最佳的常驻层数量和位置。该模型基于少量样本进行训练,能够快速准确地预测性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在配备RTX 5070Ti(16GB显存)的GPU上,对NVIDIA的Alpamayo-R1-10B(21.52GB)模型进行测试,Alpamayo框架在保持BF16精度的情况下,实现了高达3.55倍的加速,优于Accelerate offloading。此外,性能预测模型的预测误差小于1.3%,能够准确地预测不同配置下的性能。

🎯 应用场景

Alpamayo框架可广泛应用于自动驾驶、机器人等领域,使得大型VLA模型能够在资源受限的边缘设备上运行。这有助于推动这些技术在实际场景中的落地,例如,在低成本的自动驾驶车辆上部署高性能的感知和决策系统,或者在移动机器人上实现更智能的导航和控制。

📄 摘要(原文)

End-to-end Vision-Language-Action (VLA) models for autonomous driving unify perception, reasoning, and control in a single neural network, achieving strong driving performance but requiring 20-60GB of GPU memory-far exceeding the 12-16GB available on commodity GPUs. We present a framework, which enables memory-efficient VLA inference on VRAM-constrained GPUs through system-level optimization alone, without model modification. Our work proceeds in three stages: (1) Sequential Demand Layering reduces VRAM usage from model-level to layer-level granularity; (2) Pipelined Demand Layering hides parameter transfer time within layer execution time via transfer--compute overlap; and (3) a GPU-Resident Layer Decision Policy, informed by per-module residency benefit analysis, eliminates the residual transfer overhead that pipelining cannot hide. We further propose a performance prediction model that determines the optimal configuration-both the number and placement of resident layers-from a single profiling run with less than 1.3% prediction error across all configurations. Applied to NVIDIA's Alpamayo-R1-10B (21.52GB) on an RTX 5070Ti (16GB), our work achieves up to 3.55x speedup over Accelerate offloading while maintaining full BF16 precision.