OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models
作者: Yuchen Deng, Zidang Cai, Hai-Tao Zheng, Jie Wang, Feidiao Yang, Yuxing Han
分类: cs.AI
发布日期: 2026-05-12
💡 一句话要点
提出OmniRefine,用于高效压缩Omni-LLM中的音视频token,提升推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 音视频理解 模型压缩 跨模态对齐 动态规划
📋 核心要点
- Omni-LLM推理成本高昂,现有压缩方法破坏跨模态对应关系,难以兼顾性能与效率。
- OmniRefine通过跨模态对齐的chunk细化和模态感知协同压缩,实现高效音视频token压缩。
- 实验表明,OmniRefine在效率-性能权衡方面优于基线,并在低压缩率下保持性能。
📝 摘要(中文)
Omnimodal大型语言模型(Omni-LLM)在音视频理解方面表现出强大的能力,但由于长视频流和密集音频序列的高推理成本,其实际部署仍然受到限制。现有的Omni-LLM压缩方法通常依赖于固定的或原生的压缩单元,这会破坏跨模态对应关系和音视频推理所需的互补信息,难以在稳定保持性能的同时提高推理效率。为了解决这个问题,我们提出了OmniRefine,这是一个无需训练的两阶段框架,用于高效压缩Omni-LLM中的音视频token。首先,Correspondence-Preserving Chunk Refinement通过帧-音频相似性和动态规划将原生chunk边界细化为跨模态对齐的压缩单元。其次,Modality-Aware Cooperative Compression联合压缩每个细化单元内的视频和音频token,以减少冗余,同时保留关键证据。大量实验表明,OmniRefine比强大的基线实现了更好的效率-性能权衡,并在较低的压缩率下保持稳定的性能。在WorldSense上,在44%的token保留率下,它仍然达到46.7%的准确率,几乎与全token基线相匹配。代码和接口将被发布,以促进进一步的研究。
🔬 方法详解
问题定义:Omni-LLM在处理长视频和密集音频时,推理成本过高,限制了其应用。现有的压缩方法通常采用固定的或原生的压缩单元,忽略了音视频之间的跨模态对应关系,导致压缩后性能下降,无法在降低计算成本的同时保持模型性能。
核心思路:OmniRefine的核心思路是首先找到音视频之间对齐的压缩单元,然后在这些对齐的单元内进行协同压缩。通过保持跨模态对应关系,可以最大限度地保留音视频推理所需的互补信息,从而在压缩的同时维持模型性能。
技术框架:OmniRefine是一个两阶段的框架: 1. Correspondence-Preserving Chunk Refinement(跨模态对齐的Chunk细化):利用帧-音频相似性和动态规划算法,将原生的chunk边界细化为跨模态对齐的压缩单元。 2. Modality-Aware Cooperative Compression(模态感知协同压缩):在每个细化后的单元内,联合压缩视频和音频token,减少冗余,同时保留关键证据。
关键创新:OmniRefine的关键创新在于其跨模态对齐的压缩单元划分方法和模态感知的协同压缩策略。与现有方法相比,它不是简单地对视频和音频进行独立压缩,而是充分考虑了它们之间的关联性,从而更好地保留了多模态信息。
关键设计: * 帧-音频相似性度量:具体如何计算帧和音频之间的相似性,例如使用余弦相似度等。 * 动态规划算法:用于寻找最优的chunk边界,以最大化跨模态对齐程度。 * 模态感知压缩策略:针对视频和音频的不同特性,采用不同的压缩方法,例如,视频可以使用关键帧提取,音频可以使用特征聚类。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OmniRefine在WorldSense数据集上,在token保留率为44%的情况下,仍然达到了46.7%的准确率,几乎与使用全部token的基线模型性能相当。这表明OmniRefine能够在显著降低计算成本的同时,保持模型的性能,实现了更好的效率-性能权衡。相比于其他压缩方法,OmniRefine在低压缩率下表现出更稳定的性能。
🎯 应用场景
OmniRefine可应用于各种需要高效音视频理解的场景,例如智能监控、视频会议、自动驾驶、智能家居等。通过降低Omni-LLM的推理成本,可以使其在资源受限的设备上部署,并提高实时性,从而拓展其应用范围和实际价值。未来,该技术有望推动多模态人工智能在更多领域的应用。
📄 摘要(原文)
Omnimodal large language models (Omni-LLMs) show strong capability in audio-video understanding, but their practical deployment remains limited by high inference cost of long video streams and dense audio sequences. Despite recent progress, existing compression methods for Omni-LLMs typically rely on fixed or native compression units, which can disrupt cross-modal correspondence and the complementary information required for audio-video reasoning, making it difficult to improve inference efficiency while stably preserving performance. To address this, we propose OmniRefine, a training-free two-stage framework for efficient audio-visual token compression in Omni-LLMs. First, Correspondence-Preserving Chunk Refinement refines native chunk boundaries into cross-modally aligned compression units through frame-audio similarity and dynamic programming. Second, Modality-Aware Cooperative Compression jointly compresses video and audio tokens within each refined unit to reduce redundancy while preserving critical evidence. Extensive experiments show that OmniRefine achieves a better efficiency-performance trade-off than strong baselines and maintains stable performance under lower compression ratios. On WorldSense, it still reaches 46.7% accuracy at a 44% token retention ratio, nearly matching the full-token baseline. The code and interface will be released to facilitate further research.