Learning to Inference Adaptively for Multimodal Large Language Models
作者: Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li
分类: cs.AI, cs.CV, cs.LG
发布日期: 2025-03-13 (更新: 2025-08-06)
备注: Published at ICCV 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
AdaLLaVA:针对多模态大语言模型的自适应推理框架,优化资源受限场景下的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 自适应推理 资源受限环境 延迟优化 强化学习
📋 核心要点
- 多模态大语言模型计算成本高昂,难以在资源受限的环境中有效部署,现有方法无法很好地适应运行时资源变化。
- AdaLLaVA通过学习动态调整MLLM推理过程中的操作配置,以适应输入数据和延迟预算,实现自适应推理。
- 实验表明,AdaLLaVA能在满足延迟预算的同时,实现准确率和延迟之间的灵活权衡,并能泛化到不同的MLLM模型。
📝 摘要(中文)
多模态大语言模型(MLLMs)在视觉推理方面表现出令人印象深刻的能力,但计算成本巨大,限制了其在资源受限环境中的部署。尽管最近在提高MLLM效率方面做出了努力,但先前的解决方案在应对变化的运行时条件方面存在不足,尤其是在资源可用性变化的情况下(例如,由于设备上执行其他程序而导致的争用)。为了弥合这一差距,我们引入了AdaLLaVA,这是一个自适应推理框架,它学习在推理过程中动态地重新配置MLLM中的操作,同时考虑输入数据和延迟预算。我们在涉及问答、推理和幻觉的基准测试中进行了广泛的实验。结果表明,AdaLLaVA有效地遵守了输入延迟预算,在运行时实现了不同的准确性和延迟权衡。此外,我们证明了AdaLLaVA可以适应输入延迟和内容,可以与token选择集成以提高效率,并且可以跨MLLM推广。我们的项目网页包含代码发布:https://zhuoyan-xu.github.io/ada-llava/。
🔬 方法详解
问题定义:现有MLLM推理计算成本高,难以在资源受限环境下部署。现有优化方法无法根据运行时资源变化(如其他程序占用资源)进行自适应调整,导致性能下降。因此,需要一种能根据资源情况动态调整推理过程的框架。
核心思路:AdaLLaVA的核心思路是学习一个策略,该策略能够在推理过程中动态地重新配置MLLM的操作,以适应当前的输入数据和延迟预算。通过这种方式,模型可以在保证一定准确率的前提下,尽可能地降低延迟,或者在延迟允许的情况下,尽可能地提高准确率。
技术框架:AdaLLaVA框架包含以下几个主要模块:1) 性能预测器:用于预测不同操作配置下的延迟和准确率;2) 策略学习器:学习一个策略,根据输入数据和延迟预算,选择最佳的操作配置;3) MLLM执行器:根据策略选择的操作配置执行MLLM推理。整个流程是,首先利用性能预测器预测不同配置的性能,然后策略学习器根据预测结果和延迟预算选择配置,最后MLLM执行器执行推理。
关键创新:AdaLLaVA的关键创新在于其自适应推理能力。与传统的静态推理方法不同,AdaLLaVA能够根据运行时条件动态调整推理过程,从而在资源受限的环境中实现更好的性能。此外,AdaLLaVA还能够学习到一种通用的策略,可以泛化到不同的MLLM模型。
关键设计:AdaLLaVA使用强化学习来训练策略学习器,目标是最大化在延迟预算约束下的准确率。性能预测器可以使用回归模型进行训练,输入是操作配置,输出是延迟和准确率。操作配置可以包括模型层数、token选择策略等。损失函数包括准确率损失和延迟约束损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AdaLLaVA能够在满足延迟预算的前提下,实现不同的准确率和延迟之间的权衡。例如,在相同的延迟下,AdaLLaVA可以比静态推理方法提高准确率。此外,AdaLLaVA还能够与token选择等技术相结合,进一步提高效率。实验还证明了AdaLLaVA的泛化能力,可以应用于不同的MLLM模型。
🎯 应用场景
AdaLLaVA可应用于移动设备、边缘计算等资源受限场景,例如智能手机上的视觉助手、自动驾驶车辆中的实时感知系统。通过自适应推理,能够在有限的计算资源下提供更流畅、更准确的多模态交互体验,提升用户体验和系统性能。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have shown impressive capabilities in visual reasoning, yet come with substantial computational cost, limiting their deployment in resource-constrained settings. Despite recent effort on improving the efficiency of MLLMs, prior solutions fall short in responding to varying runtime conditions, in particular changing resource availability (e.g., contention due to the execution of other programs on the device). To bridge this gap, we introduce AdaLLaVA, an adaptive inference framework that learns to dynamically reconfigure operations in an MLLM during inference, accounting for the input data and a latency budget. We conduct extensive experiments across benchmarks involving question-answering, reasoning, and hallucination. Our results show that AdaLLaVA effectively adheres to input latency budget, achieving varying accuracy and latency tradeoffs at runtime. Further, we demonstrate that AdaLLaVA adapts to both input latency and content, can be integrated with token selection for enhanced efficiency, and generalizes across MLLMs. Our project webpage with code release is at https://zhuoyan-xu.github.io/ada-llava/.