Restore-R1: Efficient Image Restoration Agents via Reinforcement Learning with Multimodal LLM Perceptual Feedback
作者: Jianglin Lu, Yuanwei Wu, Ziyi Zhao, Hongcheng Wang, Felix Jimenez, Abrar Majeedi, Yun Fu
分类: cs.CV
发布日期: 2026-04-07
💡 一句话要点
提出Restore-R1,利用强化学习和多模态LLM反馈高效解决复杂图像修复问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像修复 强化学习 多模态LLM 无监督学习 策略优化
📋 核心要点
- 现有图像修复Agent依赖大量标注数据进行退化识别,且存在效率瓶颈,限制了其在实际场景中的应用。
- 提出基于策略优化的修复框架Restore-R1,通过强化学习训练轻量级Agent,自主选择最佳修复工具序列。
- 引入多模态LLM作为奖励机制,无需人工标注,即可提供与人类感知对齐的反馈,提升修复效果。
📝 摘要(中文)
复杂图像修复旨在从受多种退化(如模糊、噪声、雨水和压缩伪影)影响的输入中恢复高质量图像。最近基于视觉-语言模型和大型语言模型的修复Agent展现出潜力,但由于反射、回滚和迭代工具搜索而面临效率瓶颈。此外,它们的性能严重依赖于需要大量标注数据训练的退化识别模型,限制了其在无标签环境中的应用。为了解决这些限制,我们提出了一种基于策略优化的修复框架,该框架学习一个轻量级Agent来确定工具调用序列。该Agent在顺序决策过程中运行,在每个步骤选择最合适的修复操作,以最大化最终图像质量。为了在无标签环境中进行训练,我们引入了一种由多模态大型语言模型驱动的新型奖励机制,该模型充当与人类对齐的评估器,并为策略改进提供感知反馈。经过训练后,我们的Agent执行确定性的修复计划,无需冗余的工具调用,从而在保持高修复质量的同时显著加速推理。大量实验表明,尽管没有使用监督,我们的方法在全参考指标上与SOTA性能相匹配,并且在各种退化场景下的无参考指标上超越了现有方法。
🔬 方法详解
问题定义:论文旨在解决复杂图像修复问题,即从受到多种复杂退化(如模糊、噪声、雨水、压缩伪影等)影响的图像中恢复高质量图像。现有基于视觉-语言模型和大型语言模型的修复Agent虽然具备一定的修复能力,但存在效率瓶颈,例如需要进行反射、回滚和迭代工具搜索。此外,这些方法依赖于需要大量标注数据训练的退化识别模型,限制了其在无标签环境中的应用。
核心思路:论文的核心思路是利用强化学习训练一个轻量级的Agent,使其能够自主地选择合适的修复工具序列,从而高效地完成图像修复任务。通过将图像修复过程建模为一个顺序决策过程,Agent可以在每个步骤选择最合适的修复操作,以最大化最终图像质量。同时,为了解决无标签环境下的训练问题,论文引入了多模态大型语言模型作为奖励机制,为Agent提供与人类感知对齐的反馈。
技术框架:Restore-R1的整体框架包含以下几个主要模块:1) Agent:负责根据当前图像状态选择合适的修复工具;2) 环境:包含一系列可用的修复工具,并根据Agent的选择执行相应的操作;3) 奖励机制:利用多模态LLM评估修复后的图像质量,并为Agent提供奖励信号;4) 策略优化:利用强化学习算法(如Policy Gradient)优化Agent的策略,使其能够选择更有效的修复工具序列。
关键创新:论文最重要的技术创新点在于利用多模态LLM作为奖励机制,从而实现了在无标签环境下的图像修复Agent训练。与传统的基于人工标注数据的奖励函数相比,多模态LLM能够提供更符合人类感知的反馈,从而提升修复效果。此外,通过强化学习训练轻量级Agent,可以避免冗余的工具调用,从而显著加速推理过程。
关键设计:在奖励机制方面,论文使用了多模态LLM来评估修复后的图像质量,并将其转化为奖励信号。具体来说,LLM会根据修复后的图像生成一段描述,然后将该描述与原始图像的描述进行比较,从而判断修复效果。在策略优化方面,论文使用了Policy Gradient算法,并采用了一种基于Actor-Critic的结构,其中Actor负责选择修复工具,Critic负责评估当前状态的价值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Restore-R1在全参考指标上与SOTA方法性能相当,在无参考指标上超越了现有方法。尤其是在无参考指标上,Restore-R1表现出显著的优势,表明其修复结果更符合人类视觉感知。此外,Restore-R1通过避免冗余的工具调用,显著加速了推理过程,使其在实际应用中更具优势。
🎯 应用场景
该研究成果可应用于多种图像修复场景,例如老照片修复、视频监控图像增强、医学图像处理等。通过自动化图像修复流程,可以显著提高修复效率和质量,降低人工成本。此外,该方法在无标签环境下的训练能力,使其在缺乏标注数据的场景中具有更广泛的应用前景。未来,该技术有望应用于智能安防、医疗诊断、自动驾驶等领域。
📄 摘要(原文)
Complex image restoration aims to recover high-quality images from inputs affected by multiple degradations such as blur, noise, rain, and compression artifacts. Recent restoration agents, powered by vision-language models and large language models, offer promising restoration capabilities but suffer from significant efficiency bottlenecks due to reflection, rollback, and iterative tool searching. Moreover, their performance heavily depends on degradation recognition models that require extensive annotations for training, limiting their applicability in label-free environments. To address these limitations, we propose a policy optimization-based restoration framework that learns an lightweight agent to determine tool-calling sequences. The agent operates in a sequential decision process, selecting the most appropriate restoration operation at each step to maximize final image quality. To enable training within label-free environments, we introduce a novel reward mechanism driven by multimodal large language models, which act as human-aligned evaluator and provide perceptual feedback for policy improvement. Once trained, our agent executes a deterministic restoration plans without redundant tool invocations, significantly accelerating inference while maintaining high restoration quality. Extensive experiments show that despite using no supervision, our method matches SOTA performance on full-reference metrics and surpasses existing approaches on no-reference metrics across diverse degradation scenarios.