RefReward-SR: LR-Conditioned Reward Modeling for Preference-Aligned Super-Resolution
作者: Yushuai Song, Weize Quan, Weining Wang, Jiahui Sun, Jing Liu, Meng Li, Pengbin Yu, Zhentao Chen, Wei Shen, Lunxi Yuan, Dong-ming Yan
分类: cs.CV
发布日期: 2026-03-25
💡 一句话要点
提出RefReward-SR,一种低分辨率条件奖励模型,用于偏好对齐的超分辨率重建。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 超分辨率 奖励模型 偏好学习 多模态大语言模型 语义一致性
📋 核心要点
- 现有超分辨率方法依赖GT监督或无参考指标,与人类感知不一致,易产生语义不合理或视觉伪影。
- RefReward-SR提出一种低分辨率条件奖励模型,利用多模态大语言模型评估语义一致性和合理性。
- 构建大规模LR条件偏好数据集RefSR-18K,实验表明该框架与人类判断更对齐,提升感知合理性。
📝 摘要(中文)
生成式超分辨率(SR)的最新进展显著提高了视觉真实感,但现有的评估和优化框架与人类感知仍然不一致。全参考和无参考指标通常无法反映感知偏好,要么因为像素未对齐而惩罚语义上合理的细节,要么偏好视觉上清晰但不一致的人工痕迹。此外,大多数SR方法依赖于ground-truth相关的分布匹配,这不一定对应于人类判断。本文提出了RefReward-SR,一种低分辨率(LR)参考感知的奖励模型,用于偏好对齐的SR。RefReward-SR不依赖于GT监督或NR评估,而是评估以LR输入为条件的高分辨率(HR)重建,将LR图像视为语义锚点。利用多模态大型语言模型(MLLM)的视觉-语言先验,它以推理感知的方式评估语义一致性和合理性。为了支持这种范式,我们构建了RefSR-18K,这是第一个用于SR的大规模LR条件偏好数据集,提供基于LR-HR一致性和HR自然度的成对排序。我们使用LR条件排序奖励,通过Group Relative Policy Optimization (GRPO)微调MLLM,并将GRPO进一步集成到SR模型训练中,将RefReward-SR作为偏好对齐生成的核心奖励信号。大量实验表明,我们的框架实现了与人类判断的更好对齐,产生在保持语义一致性的同时增强感知合理性和视觉自然度的重建。
🔬 方法详解
问题定义:现有超分辨率方法在评估和优化上与人类感知存在偏差。全参考指标对像素级不匹配敏感,可能惩罚语义合理的细节;无参考指标则可能偏好视觉锐利但语义不一致的伪影。此外,依赖ground-truth的分布匹配并不一定符合人类的偏好。因此,如何设计一种更符合人类感知的超分辨率方法是一个关键问题。
核心思路:RefReward-SR的核心思路是利用低分辨率图像作为语义锚点,并使用多模态大语言模型(MLLM)来评估超分辨率重建结果的语义一致性和合理性。通过将LR图像作为条件,模型可以更好地理解HR图像应该具备的语义信息,从而避免生成不一致的细节。同时,MLLM的推理能力可以帮助模型判断HR图像的自然度和真实性。
技术框架:RefReward-SR的整体框架包含两个主要部分:LR条件奖励模型和基于奖励的超分辨率模型训练。首先,构建大规模LR条件偏好数据集RefSR-18K,该数据集包含LR-HR图像对以及人类对不同HR图像的偏好排序。然后,使用Group Relative Policy Optimization (GRPO)算法,基于RefSR-18K数据集微调MLLM,使其能够根据LR图像和HR图像的语义一致性和自然度给出奖励信号。最后,将该奖励信号集成到超分辨率模型的训练过程中,引导模型生成更符合人类偏好的结果。
关键创新:RefReward-SR的关键创新在于引入了LR条件奖励模型,并利用MLLM的视觉-语言先验知识来评估超分辨率重建结果。与传统的基于像素或特征距离的评估方法不同,RefReward-SR能够更好地捕捉图像的语义信息和人类的感知偏好。此外,RefSR-18K数据集的构建也为偏好对齐的超分辨率研究提供了重要的数据支持。
关键设计:RefReward-SR的关键设计包括:1) 使用MLLM作为奖励模型,利用其强大的视觉-语言推理能力;2) 构建RefSR-18K数据集,提供大规模的LR条件偏好数据;3) 使用Group Relative Policy Optimization (GRPO)算法微调MLLM,使其能够更好地预测人类偏好;4) 将奖励信号集成到超分辨率模型的训练过程中,引导模型生成更符合人类偏好的结果。具体的损失函数设计和网络结构选择在论文中有详细描述,这里不再赘述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RefReward-SR在偏好对齐方面取得了显著提升。通过与多种基线方法进行对比,RefReward-SR生成的超分辨率图像在人类主观评价中获得了更高的分数,表明其能够更好地捕捉人类的感知偏好。具体性能数据和对比结果可在论文的实验部分找到。
🎯 应用场景
RefReward-SR在图像超分辨率领域具有广泛的应用前景,可用于提升监控视频、老照片修复、医学影像等场景的图像质量。该方法通过与人类感知对齐,能够生成更自然、更真实的超分辨率图像,提高用户体验和应用价值。未来,该研究思路可以推广到其他图像生成任务,例如图像着色、图像修复等。
📄 摘要(原文)
Recent advances in generative super-resolution (SR) have greatly improved visual realism, yet existing evaluation and optimization frameworks remain misaligned with human perception. Full-Reference and No-Reference metrics often fail to reflect perceptual preference, either penalizing semantically plausible details due to pixel misalignment or favoring visually sharp but inconsistent artifacts. Moreover, most SR methods rely on ground-truth (GT)-dependent distribution matching, which does not necessarily correspond to human judgments. In this work, we propose RefReward-SR, a low-resolution (LR) reference-aware reward model for preference-aligned SR. Instead of relying on GT supervision or NR evaluation, RefReward-SR assesses high-resolution (HR) reconstructions conditioned on their LR inputs, treating the LR image as a semantic anchor. Leveraging the visual-linguistic priors of a Multimodal Large Language Models (MLLM), it evaluates semantic consistency and plausibility in a reasoning-aware manner. To support this paradigm, we construct RefSR-18K, the first large-scale LR-conditioned preference dataset for SR, providing pairwise rankings based on LR-HR consistency and HR naturalness. We fine-tune the MLLM with Group Relative Policy Optimization (GRPO) using LR-conditioned ranking rewards, and further integrate GRPO into SR model training with RefReward-SR as the core reward signal for preference-aligned generation. Extensive experiments show that our framework achieves substantially better alignment with human judgments, producing reconstructions that preserve semantic consistency while enhancing perceptual plausibility and visual naturalness. Code, models, and datasets will be released upon paper acceptance.