Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 arXiv: 2510.23451v1 📥 PDF

作者: Zhuoran Jin, Hongbang Yuan, Kejian Zhu, Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-10-27

备注: 48 pages, 17 figures


💡 一句话要点

提出Omni-Reward,用于支持自由形式偏好的通用全模态奖励建模。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 多模态学习 偏好建模 通用人工智能 全模态 自由形式偏好 人工智能对齐

📋 核心要点

  1. 现有奖励模型在模态支持上存在不平衡,且难以捕捉个性化偏好的复杂性与多样性。
  2. Omni-Reward旨在构建一个通用的全模态奖励模型,支持自由形式的偏好表达,从而更灵活地对齐AI行为。
  3. Omni-Reward在自建的Omni-RewardBench基准测试以及其他常用基准上均取得了优秀的性能表现。

📝 摘要(中文)

奖励模型(RM)在使AI行为与人类偏好对齐方面起着关键作用,但它们面临两个根本挑战:(1)模态不平衡,即大多数RM主要集中于文本和图像模态,对视频、音频和其他模态的支持有限;(2)偏好僵化,即在固定的二元偏好对上训练无法捕捉个性化偏好的复杂性和多样性。为了解决上述挑战,我们提出了Omni-Reward,朝着支持自由形式偏好的通用全模态奖励建模迈出了一步,包括:(1)评估:我们引入了Omni-RewardBench,这是第一个具有自由形式偏好的全模态RM基准,涵盖文本、图像、视频、音频和3D等五种模态的九个任务;(2)数据:我们构建了Omni-RewardData,一个包含248K个通用偏好对和69K个指令调优对的多模态偏好数据集,用于训练通用全模态RM;(3)模型:我们提出了Omni-RewardModel,它包括判别式和生成式RM,并在Omni-RewardBench以及其他广泛使用的奖励建模基准上取得了强大的性能。

🔬 方法详解

问题定义:现有奖励模型主要集中在文本和图像模态,对视频、音频和3D等模态的支持不足,导致模型在处理多模态信息时能力受限。此外,传统的二元偏好对训练方式无法捕捉到用户个性化偏好的复杂性和多样性,使得模型难以适应不同用户的需求。

核心思路:Omni-Reward的核心思路是构建一个能够处理多种模态输入并支持自由形式偏好表达的通用奖励模型。通过引入全模态数据和灵活的偏好建模方法,使模型能够更好地理解和对齐人类的真实意图。

技术框架:Omni-Reward包含三个主要组成部分:Omni-RewardBench(评估基准)、Omni-RewardData(训练数据)和Omni-RewardModel(奖励模型)。Omni-RewardBench用于评估模型在不同模态和任务上的性能。Omni-RewardData提供多模态偏好数据,用于训练奖励模型。Omni-RewardModel包含判别式和生成式两种模型,用于预测给定输入序列的奖励值。

关键创新:Omni-Reward的关键创新在于其对全模态的支持和对自由形式偏好的建模能力。它通过统一的框架处理多种模态的输入,并允许用户以更灵活的方式表达偏好,从而克服了传统奖励模型的局限性。

关键设计:Omni-RewardModel的具体设计细节未知,摘要中没有明确说明判别式和生成式模型的具体结构和训练方式。Omni-RewardData包含248K个通用偏好对和69K个指令调优对,这些数据用于训练模型的偏好预测能力。Omni-RewardBench包含九个任务,涵盖文本、图像、视频、音频和3D等五种模态,用于全面评估模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Omni-Reward在Omni-RewardBench基准测试以及其他广泛使用的奖励建模基准上取得了强大的性能。具体的性能数据和提升幅度在摘要中未给出,需要在论文正文中查找。该结果表明Omni-Reward在全模态奖励建模方面具有显著的优势。

🎯 应用场景

Omni-Reward具有广泛的应用前景,例如可以应用于多模态对话系统,使其能够更好地理解用户的意图并提供个性化的回复。此外,还可以应用于机器人控制领域,使机器人能够根据用户的偏好执行任务。该研究的成果有助于提升AI系统的智能化水平和用户体验。

📄 摘要(原文)

Reward models (RMs) play a critical role in aligning AI behaviors with human preferences, yet they face two fundamental challenges: (1) Modality Imbalance, where most RMs are mainly focused on text and image modalities, offering limited support for video, audio, and other modalities; and (2) Preference Rigidity, where training on fixed binary preference pairs fails to capture the complexity and diversity of personalized preferences. To address the above challenges, we propose Omni-Reward, a step toward generalist omni-modal reward modeling with support for free-form preferences, consisting of: (1) Evaluation: We introduce Omni-RewardBench, the first omni-modal RM benchmark with free-form preferences, covering nine tasks across five modalities including text, image, video, audio, and 3D; (2) Data: We construct Omni-RewardData, a multimodal preference dataset comprising 248K general preference pairs and 69K instruction-tuning pairs for training generalist omni-modal RMs; (3) Model: We propose Omni-RewardModel, which includes both discriminative and generative RMs, and achieves strong performance on Omni-RewardBench as well as other widely used reward modeling benchmarks.