Oracle-RLAIF: An Improved Fine-Tuning Framework for Multi-modal Video Models through Reinforcement Learning from Ranking Feedback

作者: Derek Shi, Ruben Glatt, Christine Klymko, Shubham Mohole, Hongjun Choi, Shashank Kushwaha, Sam Sakla, Felipe Leno da Silva

分类: cs.CV, cs.AI

发布日期: 2025-10-02

备注: Proceedings of the 39th Annual Conference on Neural Information Processing Systems, ARLET Workshop (Aligning Reinforcement Learning Experimentalists and Theorists)

💡 一句话要点

提出Oracle-RLAIF框架，通过排序反馈强化学习提升多模态视频模型性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多模态学习 视频理解 强化学习 排序学习 AI反馈

📋 核心要点

现有视频语言模型微调依赖大量人工反馈，成本高昂且效率低下。
Oracle-RLAIF框架使用AI排序器替代人工反馈，降低成本并提升效率。
实验表明，Oracle-RLAIF在视频理解任务上优于现有微调方法。

📝 摘要（中文）

本文提出了一种改进的多模态视频模型微调框架Oracle-RLAIF，该框架利用排序反馈的强化学习来增强文本和视觉理解之间的一致性。现有方法通常采用监督微调（SFT）和基于偏好数据的强化学习相结合的方式，但随着模型参数规模的增大，收集足够的人工反馈成本也随之增加。为了提高微调的成本效益，本文用AI反馈（RLAIF）取代人工偏好。与依赖于使用视频叙事训练的专用奖励模型的现有RLAIF框架不同，Oracle-RLAIF使用更通用的Oracle排序器来对候选模型响应进行排序。此外，本文还引入了基于Group Relative Policy Optimization (GRPO)的排序损失函数$GRPO_{rank}$，该函数直接优化具有排序感知优势的序数反馈。实验结果表明，在各种视频理解基准测试中，Oracle-RLAIF始终优于使用现有微调方法的领先VLM。

🔬 方法详解

问题定义：现有的大型视频语言模型（VLM）依赖于大量的有监督微调和强化学习，特别是从人类反馈中进行强化学习（RLHF）。然而，随着模型规模的扩大，获取足够的人工反馈变得非常昂贵。现有的基于AI反馈的强化学习（RLAIF）方法依赖于一个专门训练的奖励模型，该模型需要大量的视频叙述数据，限制了其通用性和成本效益。因此，如何以更经济高效的方式对大型多模态视频模型进行微调是一个关键问题。

核心思路：Oracle-RLAIF的核心思路是用一个更通用的Oracle排序器取代专门训练的奖励模型。这个Oracle排序器直接对候选模型响应进行排序，而不是像奖励模型那样输出标量奖励。通过直接优化排序结果，可以避免训练复杂的奖励模型，从而降低成本并提高效率。此外，该方法还引入了一种新的基于排序的损失函数，以更好地利用排序信息。

技术框架：Oracle-RLAIF框架主要包含以下几个阶段：1) 使用VLM生成多个候选响应；2) 使用Oracle排序器对这些响应进行排序；3) 使用基于排序的损失函数（$GRPO_{rank}$）对VLM进行微调。Oracle排序器可以是任何能够对视频理解任务进行排序的模型，例如预训练的VLM或专门训练的排序模型。$GRPO_{rank}$损失函数基于Group Relative Policy Optimization (GRPO)，并针对排序反馈进行了优化。

关键创新：Oracle-RLAIF的关键创新在于使用Oracle排序器替代奖励模型，以及引入了基于排序的损失函数$GRPO_{rank}$。与现有方法相比，Oracle-RLAIF不需要训练专门的奖励模型，从而降低了成本和复杂性。$GRPO_{rank}$损失函数能够直接优化排序反馈，更好地利用了排序信息，从而提高了微调效果。

关键设计：$GRPO_{rank}$损失函数的设计是关键。它基于GRPO，但针对排序反馈进行了修改，以考虑排序的相对关系。具体来说，它计算了每个响应的排序感知优势，并使用这些优势来更新模型参数。Oracle排序器的选择也很重要，需要选择一个能够准确反映视频理解能力的模型。此外，候选响应的生成策略也会影响最终的微调效果。

📊 实验亮点

实验结果表明，Oracle-RLAIF在多个视频理解基准测试中优于现有的微调方法。具体性能数据未知，但论文强调Oracle-RLAIF在各种视频理解基准测试中始终优于使用现有微调方法的领先VLM。这表明Oracle-RLAIF是一种有效且高效的视频模型微调框架。

🎯 应用场景

Oracle-RLAIF框架可应用于各种需要视频理解的多模态任务，例如视频问答、视频字幕生成、视频检索等。该框架能够降低模型微调的成本，提高效率，促进大型视频语言模型在实际场景中的应用。未来，该框架可以进一步扩展到其他多模态任务和模型。

📄 摘要（原文）

Recent advances in large video-language models (VLMs) rely on extensive fine-tuning techniques that strengthen alignment between textual and visual comprehension. Leading pipelines typically pair supervised fine-tuning (SFT) with reinforcement learning from preference data to enhance video comprehension. However, as VLMs scale in parameter size, so does the cost of gathering enough human feedback. To make fine-tuning more cost-effective, recent frameworks explore reinforcement learning with AI feedback (RLAIF), which replace human preference with AI as a judge. Current RLAIF frameworks rely on a specialized reward model trained with video narratives to create calibrated scalar rewards -- an expensive and restrictive pipeline. We propose Oracle-RLAIF, a novel framework that replaces the trained reward model with a more general Oracle ranker which acts as a drop-in model ranking candidate model responses rather than scoring them. Alongside Oracle-RLAIF, we introduce $GRPO_{rank}$, a novel rank-based loss function based on Group Relative Policy Optimization (GRPO) that directly optimizes ordinal feedback with rank-aware advantages. Empirically, we demonstrate that Oracle-RLAIF consistently outperforms leading VLMs using existing fine-tuning methods when evaluated across various video comprehension benchmarks. Oracle-RLAIF paves the path to creating flexible and data-efficient frameworks for aligning large multi-modal video models with reinforcement learning from rank rather than score.

Oracle-RLAIF: An Improved Fine-Tuning Framework for Multi-modal Video Models through Reinforcement Learning from Ranking Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册