O-MARC: Omni Memory-Augmented Compression Distillation for Efficient Video Understanding

📄 arXiv: 2605.26584v1 📥 PDF

作者: Peiran Wu, Yunze Liu, Chi-Hao Wu, Chen Chen, Junxiao Shen

分类: cs.CV

发布日期: 2026-05-26


💡 一句话要点

提出O-MARC框架,通过压缩蒸馏提升多模态大模型在视频理解中的效率与性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态学习 大语言模型 压缩蒸馏 知识蒸馏

📋 核心要点

  1. 现有方法在处理长视频时,联合token序列过长导致推理成本高昂,且现有基准测试未能充分隔离音频-视觉关联。
  2. 论文提出OMAC进行无训练压缩,保留显著视觉记忆和时间对齐的音频锚点,并设计O-MARC框架,通过压缩蒸馏提升模型鲁棒性。
  3. 实验表明,O-MARC在多个基准测试中优于完整token推理和其他压缩方法,同时显著降低了推理延迟和内存占用。

📝 摘要(中文)

本文提出了一种名为O-MARC的压缩蒸馏框架,用于提升多模态大模型在视频理解任务中的效率。针对现有基准测试在用户生成视频中音频-视觉关联隔离不足的问题,作者构建了一个名为UGC-AVQA的公共基准测试集,包含1000个视频和4816个问答对,并通过音频移除测试确保问题需要声学和视觉证据。为了降低推理成本,作者提出了一种无需训练的插件式压缩方法OMAC,该方法保留了显著的视觉记忆和时间对齐的音频锚点。O-MARC通过记忆压缩的多模态上下文进行学习,使紧凑模型对压缩输入具有鲁棒性。在Qwen2.5-Omni-3B上,O-MARC在四个基准测试上的平均得分提高到45.8,优于完整token推理的44.1和OmniZip的41.0。OMAC还保持了推理效率,与完整token推理相比,延迟降低了34.6%(加速1.53倍),内存降低了34.7%。

🔬 方法详解

问题定义:论文旨在解决多模态大模型在视频理解任务中,由于处理长序列token导致的推理成本高昂问题。现有方法通常需要处理完整的音视频token序列,计算量大,效率低。此外,现有的视频理解基准测试在评估模型对音视频关联的理解能力时,存在噪声干扰,无法准确评估模型性能。

核心思路:论文的核心思路是通过压缩和蒸馏来降低模型的推理成本,同时保持甚至提升模型的性能。具体来说,首先使用OMAC方法对输入进行压缩,减少token数量,降低计算复杂度。然后,使用O-MARC框架进行蒸馏训练,使压缩后的模型能够学习到原始模型的知识,从而提高模型的鲁棒性和泛化能力。

技术框架:整体框架包含两个主要部分:OMAC压缩模块和O-MARC蒸馏训练模块。OMAC模块是一个无需训练的插件式压缩方法,用于压缩输入的音视频token序列。O-MARC模块则是一个基于压缩数据的蒸馏训练框架,用于训练紧凑模型。该框架使用原始模型作为教师模型,压缩后的数据作为输入,训练学生模型,使其能够学习到教师模型的知识。

关键创新:论文的关键创新在于提出了OMAC和O-MARC两种方法。OMAC通过保留显著的视觉记忆和时间对齐的音频锚点,实现了对音视频token序列的有效压缩,降低了计算复杂度。O-MARC则通过压缩蒸馏的方式,使紧凑模型能够学习到原始模型的知识,提高了模型的鲁棒性和泛化能力。此外,论文还提出了一个新的基准测试集UGC-AVQA,用于更准确地评估模型对音视频关联的理解能力。

关键设计:OMAC的关键设计在于如何选择和保留显著的视觉记忆和时间对齐的音频锚点。具体来说,论文使用了一种基于注意力机制的方法来选择视觉记忆,并使用了一种基于时间对齐的方法来选择音频锚点。O-MARC的关键设计在于如何设计损失函数,使学生模型能够更好地学习到教师模型的知识。论文使用了一种结合了分类损失和知识蒸馏损失的损失函数,以提高学生模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,O-MARC在Qwen2.5-Omni-3B模型上,四个基准测试的平均得分达到45.8,优于完整token推理的44.1和OmniZip的41.0。同时,OMAC将推理延迟降低了34.6%(加速1.53倍),内存降低了34.7%。这些结果表明,O-MARC能够有效提升多模态大模型在视频理解任务中的效率和性能。

🎯 应用场景

该研究成果可应用于各种需要高效视频理解的场景,例如智能监控、视频搜索、自动驾驶、智能助手等。通过降低推理成本,可以使多模态大模型在资源受限的设备上运行,从而扩展其应用范围。此外,该研究提出的UGC-AVQA基准测试集可以促进视频理解领域的研究。

📄 摘要(原文)

Omnimodal large language models enable unified audio video understanding, but long joint token sequences make inference costly, and existing benchmarks do not fully isolate audio visual association in noisy user generated videos. We introduce UGC-AVQA, a public UGC benchmark with 1,000 videos and 4,816 QA pairs, where an audio removal test ensures that benchmark questions require both acoustic and visual evidence. To reduce inference cost, we propose OMAC, a training free plug in compression method that preserves salient visual memory and temporally grounded audio anchors. To further make compact models robust to compressed inputs, we introduce O-MARC, a compression distillation framework for learning with memory compressed multimodal contexts. On Qwen2.5-Omni-3B, O-MARC improves the average score across four benchmarks to 45.8, outperforming full token inference at 44.1 and OmniZip at 41.0. OMAC also keeps inference efficient, reducing latency by 34.6\% (1.53$\times$ speedup) and memory by 34.7\% compared with full token inference.