Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration

📄 arXiv: 2505.20256v1 📥 PDF

作者: Hao Zhong, Muzhi Zhu, Zongze Du, Zheng Huang, Canyu Zhao, Mingyu Liu, Wen Wang, Hao Chen, Chunhua Shen

分类: cs.CV

发布日期: 2025-05-26

备注: Project page: https://aim-uofa.github.io/OmniR1


💡 一句话要点

Omni-R1:提出基于强化学习的双系统协作框架,解决全模态推理中长时域和像素级理解的冲突。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全模态推理 强化学习 关键帧选择 双系统协作 视频理解 音频理解 像素级分割

📋 核心要点

  1. 全模态模型面临长时域推理和像素级理解的冲突,即低分辨率帧保证时域覆盖,高分辨率帧保证定位精度。
  2. 提出双系统架构,全局推理系统选择关键帧并重写任务,细节理解系统在高分辨率片段上进行像素级定位。
  3. Omni-R1通过强化学习训练全局推理系统,利用与细节理解系统的在线协作获得分层奖励,实验表明其优于现有方法。

📝 摘要(中文)

长时域视频-音频推理和精细像素级理解对全模态模型提出了相互冲突的要求:密集的时域覆盖需要许多低分辨率帧,而精确的定位需要高分辨率输入。我们通过一个双系统架构来解决这个权衡:全局推理系统选择信息丰富的关键帧并以低空间成本重写任务,而细节理解系统对所选的高分辨率片段执行像素级定位。由于“最优”关键帧选择和重构是模糊且难以监督的,我们将它们形式化为一个强化学习(RL)问题,并提出了Omni-R1,这是一个建立在群体相对策略优化之上的端到端RL框架。Omni-R1通过与细节理解系统的在线协作获得的分层奖励来训练全局推理系统,仅需要在小任务分割上进行一个epoch的RL。在两个具有挑战性的基准测试(即Referring Audio-Visual Segmentation (RefAVS) 和 Reasoning Video Object Segmentation (REVOS))上的实验表明,Omni-R1不仅超越了强大的监督基线,而且优于专门的最先进模型,同时显着提高了域外泛化能力并减轻了多模态幻觉。我们的结果证明了RL在大型全模态推理中的首次成功应用,并突出了通往通用基础模型的可扩展路径。

🔬 方法详解

问题定义:论文旨在解决全模态推理任务中,模型需要在长时域视频和音频中进行推理,同时进行精细的像素级理解。现有方法难以兼顾全局时域信息和局部像素细节,因为高分辨率输入计算成本高昂,而低分辨率输入则丢失了细节信息。这导致模型在长时域推理和精细定位之间做出妥协,影响性能。

核心思路:论文的核心思路是采用双系统协作架构,将全局推理和细节理解解耦。全局推理系统负责选择关键帧并重构任务,降低空间复杂度,而细节理解系统则专注于对选定的高分辨率片段进行像素级理解。通过这种方式,模型可以同时利用全局上下文信息和局部细节信息,从而提高推理精度。关键帧的选择和任务重构被建模为强化学习问题,通过奖励机制引导全局推理系统学习最优策略。

技术框架:Omni-R1框架包含两个主要模块:全局推理系统和细节理解系统。全局推理系统接收低分辨率的视频和音频输入,通过策略网络选择关键帧,并生成任务重构信息。细节理解系统接收全局推理系统选择的关键帧和任务重构信息,以及对应的高分辨率视频片段,进行像素级别的分割或定位。两个系统通过在线协作的方式进行训练,细节理解系统的输出作为奖励信号反馈给全局推理系统,指导其策略学习。整个框架采用端到端的强化学习方式进行训练。

关键创新:论文的关键创新在于将强化学习应用于全模态推理中的关键帧选择和任务重构。通过强化学习,模型可以自动学习最优的关键帧选择策略,无需人工标注或监督信号。此外,双系统协作架构也使得模型能够同时处理全局上下文信息和局部细节信息,从而提高推理精度。使用Group Relative Policy Optimization算法进行强化学习训练,提高了训练效率和稳定性。

关键设计:全局推理系统使用循环神经网络(RNN)或Transformer等序列模型来处理视频和音频输入,并输出关键帧选择概率和任务重构信息。细节理解系统可以使用现有的图像分割或目标检测模型。强化学习的奖励函数设计至关重要,通常包括分割或定位的准确率、与ground truth的相似度等指标。Group Relative Policy Optimization算法用于优化策略网络,该算法通过比较不同策略组的性能来提高训练效率。

🖼️ 关键图片

img_0

📊 实验亮点

Omni-R1在RefAVS和REVOS两个基准测试上均取得了显著的性能提升,超越了现有的监督学习方法和专门的最先进模型。实验结果表明,Omni-R1在域外泛化能力方面表现出色,并且能够有效减轻多模态幻觉问题。例如,在RefAVS数据集上,Omni-R1的性能超过了现有最佳模型,并且在域外数据集上的泛化能力得到了显著提升。

🎯 应用场景

Omni-R1具有广泛的应用前景,例如智能视频监控、自动驾驶、医疗影像分析、人机交互等领域。该研究可以提升机器对复杂场景的理解能力,实现更精准的目标检测、分割和行为识别。未来,该方法有望应用于构建更强大的通用人工智能模型,实现更高级别的智能任务。

📄 摘要(原文)

Long-horizon video-audio reasoning and fine-grained pixel understanding impose conflicting requirements on omnimodal models: dense temporal coverage demands many low-resolution frames, whereas precise grounding calls for high-resolution inputs. We tackle this trade-off with a two-system architecture: a Global Reasoning System selects informative keyframes and rewrites the task at low spatial cost, while a Detail Understanding System performs pixel-level grounding on the selected high-resolution snippets. Because ``optimal'' keyframe selection and reformulation are ambiguous and hard to supervise, we formulate them as a reinforcement learning (RL) problem and present Omni-R1, an end-to-end RL framework built on Group Relative Policy Optimization. Omni-R1 trains the Global Reasoning System through hierarchical rewards obtained via online collaboration with the Detail Understanding System, requiring only one epoch of RL on small task splits. Experiments on two challenging benchmarks, namely Referring Audio-Visual Segmentation (RefAVS) and Reasoning Video Object Segmentation (REVOS), show that Omni-R1 not only surpasses strong supervised baselines but also outperforms specialized state-of-the-art models, while substantially improving out-of-domain generalization and mitigating multimodal hallucination. Our results demonstrate the first successful application of RL to large-scale omnimodal reasoning and highlight a scalable path toward universally foundation models.