SimpleCall: A Lightweight Image Restoration Agent in Label-Free Environments with MLLM Perceptual Feedback
作者: Jianglin Lu, Yuanwei Wu, Ziyi Zhao, Hongcheng Wang, Felix Jimenez, Abrar Majeedi, Yun Fu
分类: cs.CV
发布日期: 2025-12-21
💡 一句话要点
SimpleCall:基于MLLM感知反馈的轻量级无标签图像修复Agent
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像修复 无监督学习 多模态大语言模型 强化学习 策略优化
📋 核心要点
- 现有图像修复Agent依赖大量标注数据进行退化识别模型训练,且效率较低,限制了其在无标签环境中的应用。
- 提出一种基于策略优化的修复框架,学习轻量级Agent来确定工具调用序列,最大化最终图像质量。
- 引入多模态大语言模型驱动的奖励机制,在无标签环境下进行训练,实验表明该方法在多个指标上表现优异。
📝 摘要(中文)
复杂图像修复旨在从受到多种退化(如模糊、噪声、雨水和压缩伪影)影响的输入中恢复高质量图像。最近基于视觉-语言模型和大语言模型的修复Agent展现了良好的修复能力,但由于反射、回滚和迭代工具搜索,效率存在显著瓶颈。此外,它们的性能严重依赖于需要大量标注数据训练的退化识别模型,限制了其在无标签环境中的应用。为了解决这些限制,我们提出了一种基于策略优化的修复框架,该框架学习一个轻量级Agent来确定工具调用序列。该Agent在顺序决策过程中运行,在每个步骤选择最合适的修复操作,以最大化最终图像质量。为了在无标签环境中进行训练,我们引入了一种由多模态大语言模型驱动的新型奖励机制,该机制充当与人类对齐的评估器,并为策略改进提供感知反馈。经过训练后,我们的Agent执行确定性的修复计划,无需冗余的工具调用,从而显著加速推理,同时保持较高的修复质量。大量实验表明,尽管没有使用监督,我们的方法在全参考指标上与SOTA性能相匹配,并且在各种退化场景下的无参考指标上超越了现有方法。
🔬 方法详解
问题定义:论文旨在解决复杂图像修复中,现有方法依赖大量标注数据进行退化识别模型训练,以及效率较低的问题。现有方法通常需要复杂的退化识别模型,这些模型需要大量的标注数据进行训练,这在实际应用中往往难以满足。此外,现有方法在工具调用过程中存在反射、回滚和迭代工具搜索等问题,导致效率低下。
核心思路:论文的核心思路是利用强化学习训练一个轻量级的Agent,该Agent能够根据当前图像的状态,选择合适的修复工具,并以顺序决策的方式逐步修复图像。为了解决无标签环境下的训练问题,论文引入了多模态大语言模型作为奖励机制,为Agent提供感知反馈,从而实现无监督的策略优化。
技术框架:整体框架包含三个主要模块:1) Agent:负责根据当前图像状态选择修复工具;2) 修复工具集:包含多种图像修复算法,如去噪、去模糊等;3) 多模态大语言模型:作为奖励机制,评估修复后的图像质量,并为Agent提供反馈。Agent通过与环境交互,不断学习和优化策略,最终实现高效的图像修复。
关键创新:最重要的技术创新点在于利用多模态大语言模型作为奖励机制,实现了在无标签环境下的策略优化。与传统的基于人工标注数据的奖励机制相比,该方法无需人工干预,能够自动学习图像修复的感知质量,从而更好地指导Agent的训练。此外,轻量级Agent的设计也显著提高了修复效率。
关键设计:Agent采用轻量级的神经网络结构,以减少计算量和提高推理速度。奖励函数的设计至关重要,论文利用多模态大语言模型对修复后的图像进行评估,并根据评估结果生成奖励信号。具体来说,大语言模型会分析图像的清晰度、噪声水平、伪影程度等指标,并综合评估图像的整体质量。此外,论文还设计了一种策略梯度算法,用于优化Agent的策略,使其能够选择更合适的修复工具。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在无监督的情况下,该方法在全参考指标上与SOTA性能相匹配,并且在各种退化场景下的无参考指标上超越了现有方法。例如,在某个特定数据集上,该方法在无参考指标上的提升幅度达到了10%以上,证明了其在无标签环境下的有效性和优越性。
🎯 应用场景
该研究成果可应用于各种图像修复场景,如老照片修复、视频监控图像增强、医学图像处理等。其无需标注数据的特性使其在数据匮乏的领域具有重要价值。未来,该方法有望扩展到其他图像处理任务,如图像超分辨率、图像着色等,并为智能图像处理提供新的思路。
📄 摘要(原文)
Complex image restoration aims to recover high-quality images from inputs affected by multiple degradations such as blur, noise, rain, and compression artifacts. Recent restoration agents, powered by vision-language models and large language models, offer promising restoration capabilities but suffer from significant efficiency bottlenecks due to reflection, rollback, and iterative tool searching. Moreover, their performance heavily depends on degradation recognition models that require extensive annotations for training, limiting their applicability in label-free environments. To address these limitations, we propose a policy optimization-based restoration framework that learns an lightweight agent to determine tool-calling sequences. The agent operates in a sequential decision process, selecting the most appropriate restoration operation at each step to maximize final image quality. To enable training within label-free environments, we introduce a novel reward mechanism driven by multimodal large language models, which act as human-aligned evaluator and provide perceptual feedback for policy improvement. Once trained, our agent executes a deterministic restoration plans without redundant tool invocations, significantly accelerating inference while maintaining high restoration quality. Extensive experiments show that despite using no supervision, our method matches SOTA performance on full-reference metrics and surpasses existing approaches on no-reference metrics across diverse degradation scenarios.