OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models

作者: Seungwoo Roh, Huiyeong Kim, Jong-Chan Kim

分类: cs.AI

发布日期: 2026-05-12

备注: Submitted to IEEE RTCSA on March 26, 2026 (KST); Accepted on May 4, 2026 (KST)

💡 一句话要点

提出OOM-Free Alpamayo框架，通过CPU-GPU内存交换实现VLA模型在低显存GPU上的高效推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 内存管理 CPU-GPU内存交换 低显存GPU 自动驾驶

📋 核心要点

端到端VLA模型参数量巨大，在消费级GPU上运行时面临显存不足的挑战，限制了其在自动驾驶等领域的应用。
Alpamayo框架通过顺序和流水线需求分层，以及GPU常驻层决策策略，实现了VLA模型在CPU和GPU之间的内存高效交换。
实验表明，Alpamayo框架在RTX 5070Ti上运行Alpamayo-R1-10B模型时，相比Accelerate offloading，实现了显著的加速效果。

📝 摘要（中文）

本文提出了一种名为OOM-Free Alpamayo的框架，旨在解决端到端视觉-语言-动作（VLA）模型在资源受限的GPU上进行推理时，因显存不足（OOM）而无法运行的问题。VLA模型在自动驾驶等领域表现出色，但其庞大的参数规模（20-60GB）远超消费级GPU的显存容量（12-16GB）。该框架通过纯系统级优化，无需修改模型本身，即可实现高效的VLA推理。具体而言，该方法包含三个阶段：（1）顺序需求分层（Sequential Demand Layering），将显存使用粒度从模型级别降低到层级别；（2）流水线需求分层（Pipelined Demand Layering），通过传输-计算重叠来隐藏参数传输时间；（3）GPU常驻层决策策略（GPU-Resident Layer Decision Policy），基于模块常驻收益分析，消除流水线无法隐藏的剩余传输开销。此外，还提出了一个性能预测模型，通过单次 profiling 即可确定最佳配置（常驻层的数量和位置），预测误差小于1.3%。在配备RTX 5070Ti（16GB显存）的GPU上，对NVIDIA的Alpamayo-R1-10B（21.52GB）模型进行测试，该方法在保持BF16精度的情况下，实现了高达3.55倍的加速，优于Accelerate offloading。

🔬 方法详解

问题定义：VLA模型在自动驾驶等领域展现出强大的能力，但其模型规模庞大，通常需要20-60GB的GPU显存。然而，消费级GPU的显存容量通常只有12-16GB，这导致VLA模型无法直接在这些设备上进行推理，限制了其应用范围。现有方法，如模型并行或量化，通常需要修改模型结构或牺牲精度，而简单的offloading方法则效率低下。

核心思路：Alpamayo框架的核心思路是在不修改模型结构的前提下，通过系统级的优化，实现VLA模型在CPU和GPU之间的内存高效交换。该框架将模型按层划分，并根据每一层的计算需求动态地将参数从CPU传输到GPU，并在计算完成后释放GPU显存。通过流水线技术和常驻层策略，进一步减少了数据传输的开销。

技术框架：Alpamayo框架包含三个主要阶段：1. 顺序需求分层（Sequential Demand Layering）：将模型分解为多个层，并按顺序执行。每一层在执行前，将其所需的参数从CPU传输到GPU，执行完成后释放GPU显存。2. 流水线需求分层（Pipelined Demand Layering）：通过将参数传输与层计算重叠，隐藏参数传输的时间开销。在计算当前层的同时，预取下一层所需的参数。3. GPU常驻层决策策略（GPU-Resident Layer Decision Policy）：根据每一层的计算量和数据传输量，决定哪些层应该常驻在GPU显存中，以进一步减少数据传输的开销。该策略基于模块常驻收益分析，选择收益最高的层常驻。

关键创新：Alpamayo框架的关键创新在于其系统级的优化方法，无需修改模型结构即可实现高效的内存管理。通过顺序和流水线需求分层，以及GPU常驻层决策策略，该框架能够充分利用CPU和GPU的资源，在显存受限的GPU上运行大型VLA模型。此外，性能预测模型的提出，使得能够快速找到最佳的配置，进一步提升了推理效率。

关键设计：GPU常驻层决策策略是关键设计之一。该策略通过分析每个模块的计算量和数据传输量，计算其常驻在GPU上的收益。收益的计算考虑了数据传输的开销和计算加速的收益。性能预测模型通过单次 profiling 即可预测不同配置下的性能，从而选择最佳的常驻层数量和位置。该模型基于少量样本进行训练，能够快速准确地预测性能。

🖼️ 关键图片

📊 实验亮点

在配备RTX 5070Ti（16GB显存）的GPU上，对NVIDIA的Alpamayo-R1-10B（21.52GB）模型进行测试，Alpamayo框架在保持BF16精度的情况下，实现了高达3.55倍的加速，优于Accelerate offloading。此外，性能预测模型的预测误差小于1.3%，能够准确地预测不同配置下的性能。

🎯 应用场景

Alpamayo框架可广泛应用于自动驾驶、机器人等领域，使得大型VLA模型能够在资源受限的边缘设备上运行。这有助于推动这些技术在实际场景中的落地，例如，在低成本的自动驾驶车辆上部署高性能的感知和决策系统，或者在移动机器人上实现更智能的导航和控制。

📄 摘要（原文）

End-to-end Vision-Language-Action (VLA) models for autonomous driving unify perception, reasoning, and control in a single neural network, achieving strong driving performance but requiring 20-60GB of GPU memory-far exceeding the 12-16GB available on commodity GPUs. We present a framework, which enables memory-efficient VLA inference on VRAM-constrained GPUs through system-level optimization alone, without model modification. Our work proceeds in three stages: (1) Sequential Demand Layering reduces VRAM usage from model-level to layer-level granularity; (2) Pipelined Demand Layering hides parameter transfer time within layer execution time via transfer--compute overlap; and (3) a GPU-Resident Layer Decision Policy, informed by per-module residency benefit analysis, eliminates the residual transfer overhead that pipelining cannot hide. We further propose a performance prediction model that determines the optimal configuration-both the number and placement of resident layers-from a single profiling run with less than 1.3% prediction error across all configurations. Applied to NVIDIA's Alpamayo-R1-10B (21.52GB) on an RTX 5070Ti (16GB), our work achieves up to 3.55x speedup over Accelerate offloading while maintaining full BF16 precision.

OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理