Visual Preference Optimization with Rubric Rewards

📄 arXiv: 2604.13029v1 📥 PDF

作者: Ya-Qi Yu, Fangyu Hong, Xiangyang Qu, Hao Wang, Gaojie Wu, Qiaoyu Luo, Nuo Xu, Huixin Wang, Wuheng Xu, Yongxin Liao, Zihao Chen, Haonan Li, Ziming Li, Dezhi Peng, Minghui Liao, Jihao Wu, Haoyu Ren, Dandan Tu

分类: cs.CV, cs.AI

发布日期: 2026-04-14


💡 一句话要点

提出rDPO框架以优化视觉偏好评估

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉偏好优化 直接偏好优化 多模态任务 评分标准 模型评估

📋 核心要点

  1. 现有的直接偏好优化方法依赖于粗略的结果信号,难以满足细粒度视觉推理的需求。
  2. 本文提出的rDPO框架通过实例特定的评分标准,优化了偏好数据的构建和使用。
  3. 实验结果显示,rDPO在多个基准测试中显著提升了模型性能,尤其在视觉偏好优化方面表现突出。

📝 摘要(中文)

直接偏好优化(DPO)的有效性依赖于反映多模态任务中质量差异的偏好数据。现有方法通常依赖于离线扰动或粗略的结果信号,这不适合细粒度的视觉推理。本文提出了一种基于实例特定评分标准的偏好优化框架rDPO。针对每个图像-指令对,创建了一个检查表式的评分标准,以对任何可能的策略的响应进行评分。实验结果表明,基于评分标准的提示显著提升了模型性能,并在多个基准测试中表现优异。

🔬 方法详解

问题定义:本文旨在解决现有直接偏好优化方法在多模态任务中对偏好数据依赖不足的问题,尤其是在细粒度视觉推理方面的不足。现有方法往往依赖于离线扰动或粗略的结果信号,无法有效捕捉质量差异。

核心思路:rDPO框架的核心思想是为每个图像-指令对创建一个检查表式的评分标准,结合实例特定的标准来优化偏好数据的构建和使用。这种设计旨在提高对响应的评分精度,进而提升模型的整体性能。

技术框架:rDPO的整体架构包括离线构建指令-评分标准池,并在构建在线数据时重复使用这些标准。主要模块包括评分标准生成、响应评分和模型训练。

关键创新:rDPO的主要创新在于引入了实例特定的评分标准,这与现有方法的粗略结果信号形成鲜明对比。通过这种方式,rDPO能够更精确地捕捉到多模态任务中的质量差异。

关键设计:在技术细节上,rDPO采用了检查表式的评分标准,涵盖了基本和附加标准,确保评分的全面性和准确性。此外,模型训练过程中使用了基于评分标准的提示,显著提高了模型的判断能力。

📊 实验亮点

实验结果表明,基于评分标准的提示使得30B-A3B评估模型的性能接近GPT-5.4。在公共下游基准测试中,基于评分标准的过滤将宏观平均提升至82.69,而基于结果的过滤则下降至75.82,显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括图像生成、自然语言处理和多模态交互等。通过优化视觉偏好评估,rDPO能够提升人机交互的质量,增强自动化系统在复杂任务中的表现,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

The effectiveness of Direct Preference Optimization (DPO) depends on preference data that reflect the quality differences that matter in multimodal tasks. Existing pipelines often rely on off-policy perturbations or coarse outcome-based signals, which are not well suited to fine-grained visual reasoning. We propose rDPO, a preference optimization framework based on instance-specific rubrics. For each image-instruction pair, we create a checklist-style rubric of essential and additional criteria to score responses from any possible policies. The instruction-rubric pool is built offline and reused during the construction of on-policy data. On public reward modeling benchmarks, rubric-based prompting massively improves a 30B-A3B judge and brings it close to GPT-5.4. On public downstream benchmarks, rubric-based filtering raises the macro average to 82.69, whereas outcome-based filtering drops it to 75.82 from 81.14. When evaluating scalability on a comprehensive benchmark, rDPO achieves 61.01, markedly outperforming the style-constrained baseline (52.36) and surpassing the 59.48 base model. Together, these results show that visual preference optimization benefits from combining on-policy data construction with instance-specific criterion-level feedback.