DT2IT-MRM: Debiased Preference Construction and Iterative Training for Multimodal Reward Modeling

作者: Zhihong Zhang, Jie Zhao, Xiaojian Huang, Jin Xu, Zhuodong Luo, Xin Liu, Jiansheng Wei, Xuejin Chen

分类: cs.AI

发布日期: 2026-04-21

备注: code will be uploaded to https://github.com/zhang123434/DT2IT-MRM

💡 一句话要点

DT2IT-MRM：通过去偏好构建与迭代训练提升多模态奖励模型性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态奖励模型 偏好学习 数据去偏置 迭代训练 文本到图像 多模态对齐 大型语言模型

📋 核心要点

现有方法在多模态奖励模型训练中面临偏好数据质量问题，包括粒度不足、风格偏差和信号不可靠。
DT2IT-MRM通过去偏置偏好构建、T2I数据重构和迭代训练框架，提升多模态偏好数据集的质量。
实验结果表明，DT2IT-MRM在多个基准测试中取得了领先的性能，验证了其有效性。

📝 摘要（中文）

多模态奖励模型（MRM）在使多模态大型语言模型（MLLM）与人类偏好对齐方面起着至关重要的作用。训练一个良好的MRM需要高质量的多模态偏好数据。然而，现有的偏好数据集面临三个关键挑战：偏好强度缺乏粒度、文本风格偏差以及不可靠的偏好信号。此外，现有的开源多模态偏好数据集存在大量噪声，但缺乏有效的、可扩展的策展方法来提高其质量。为了解决这些限制，我们提出了 extbf{DT2IT-MRM}，它整合了一个 extbf{D}ebiased偏好构建流程，一种新颖的文本到图像（ extbf{T2I}）偏好数据重构，以及一个 extbf{I}terative extbf{T}raining框架，该框架用于策展现有的多模态偏好数据集，以用于 extbf{M}ultimodal extbf{R}eward extbf{M}odeling。我们的实验结果表明，DT2IT-MRM在三个主要基准测试VL-RewardBench、Multimodal RewardBench和MM-RLHF-RewardBench上实现了新的 extbf{state-of-the-art}整体性能。

🔬 方法详解

问题定义：论文旨在解决多模态奖励模型（MRM）训练中，现有偏好数据集质量不高的问题。具体来说，现有数据集存在偏好强度粒度不足，文本风格偏差，以及偏好信号不可靠等问题，导致训练出的MRM无法准确反映人类偏好。此外，开源数据集噪声大，缺乏有效的清洗和提升质量的方法。

核心思路：论文的核心思路是通过一个包含去偏置偏好构建流程、T2I数据重构和迭代训练框架的DT2IT-MRM方法，来提升多模态偏好数据集的质量，从而训练出更好的MRM。这样设计的目的是为了解决现有数据集的缺陷，提高MRM的准确性和可靠性。

技术框架：DT2IT-MRM的整体框架包含三个主要部分：1) 去偏置偏好构建：用于消除文本风格偏差，提高偏好信号的可靠性。2) T2I数据重构：将文本到图像的偏好数据进行重新组织，以更好地利用这些数据。3) 迭代训练框架：通过迭代训练，不断清洗和优化数据集，提高数据集质量。

关键创新：该论文的关键创新在于提出了一个完整的、可扩展的流程来提升多模态偏好数据集的质量。具体包括：1) 设计了去偏置偏好构建流程，有效降低了文本风格偏差。2) 提出了T2I数据重构方法，更好地利用了文本到图像的偏好信息。3) 构建了迭代训练框架，能够不断优化数据集质量。这些创新点共同作用，使得DT2IT-MRM能够训练出性能更优的MRM。

关键设计：关于去偏置偏好构建的具体方法，论文可能使用了某种对抗训练或数据增强技术来消除文本风格偏差（具体细节未知）。T2I数据重构可能涉及到对文本描述和图像特征的重新编码和对齐（具体细节未知）。迭代训练框架可能使用了某种主动学习或数据挖掘技术来识别和去除噪声数据（具体细节未知）。损失函数和网络结构等细节在论文中未明确说明。

🖼️ 关键图片

📊 实验亮点

DT2IT-MRM在VL-RewardBench、Multimodal RewardBench和MM-RLHF-RewardBench三个主要基准测试上取得了新的state-of-the-art性能。具体提升幅度未知，但结果表明该方法在多模态奖励模型训练方面具有显著优势，能够有效提升模型性能。

🎯 应用场景

该研究成果可广泛应用于多模态大型语言模型的对齐训练，提升模型生成内容与人类偏好的一致性。例如，可以用于图像生成、视频理解、机器人控制等领域，使AI系统更好地理解人类意图并做出相应的决策。未来，该方法有望推动多模态人工智能技术的进步。

📄 摘要（原文）

Multimodal reward models (MRMs) play a crucial role in aligning Multimodal Large Language Models (MLLMs) with human preferences. Training a good MRM requires high-quality multimodal preference data. However, existing preference datasets face three key challenges: lack of granularity in preference strength, textual style bias, and unreliable preference signals. Besides, existing open-source multimodal preference datasets suffer from substantial noise, yet there is a lack of effective and scalable curation methods to enhance their quality. To address these limitations, we propose \textbf{DT2IT-MRM}, which integrates a \textbf{D}ebiased preference construction pipeline, a novel reformulation of text-to-image (\textbf{T2I}) preference data, and an \textbf{I}terative \textbf{T}raining framework that curates existing multimodal preference datasets for \textbf{M}ultimodal \textbf{R}eward \textbf{M}odeling. Our experimental results show that DT2IT-MRM achieves new \textbf{state-of-the-art} overall performance on three major benchmarks: VL-RewardBench, Multimodal RewardBench, and MM-RLHF-RewardBench.

DT2IT-MRM: Debiased Preference Construction and Iterative Training for Multimodal Reward Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理