Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

📄 arXiv: 2605.30257v1 📥 PDF

作者: Ciara Rowles, Reshinth Adithyan, Nikhil Pinnaparaju, Vikram Voleti, Mark Boss

分类: cs.CV

发布日期: 2026-05-28

备注: 25 pages, 8 figures, 4 tables. Project page: https://stability-ai.github.io/stable-layers.github.io/


💡 一句话要点

Stable-Layers:利用VLM评分的强化学习微调图像层分解模型,无需配对监督。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像层分解 强化学习 视觉-语言模型 无监督学习 Flow-GRPO LoRA适配 图像编辑

📋 核心要点

  1. 现有图像层分解模型依赖配对监督数据,成本高昂且难以获取,限制了模型的泛化能力。
  2. Stable-Layers利用视觉-语言模型(VLM)的反馈作为奖励信号,通过强化学习微调层分解模型,无需配对监督。
  3. 实验表明,Stable-Layers在层分离、伪影减少和重建误差方面优于基线模型,提升了图像层分解的质量。

📝 摘要(中文)

本文提出了Stable-Layers,一个强化学习框架,它仅使用来自视觉-语言模型(VLM)的反馈来微调预训练的层分解模型,从而消除了对配对监督的需求。从Qwen-Image-Layered出发,我们应用Flow-GRPO与LoRA适配,对每张图像采样多个候选分解,使用VLM对它们进行评分,并从组相对优势中优化策略。关键挑战在于设计可靠的奖励信号:孤立地对样本进行评分的VLM倾向于将其判断压缩到窄带中,使GRPO几乎没有组内方差可供学习。我们通过一个两阶段评估流程来解决这个问题,该流程将跨五个以编辑为中心的标准的结构化单样本评分与基于网格的校准步骤配对,在该步骤中,VLM并排重新评分所有候选对象。与基础模型相比,Stable-Layers在Crello数据集上产生了具有更强层分离、更少空白或伪影层的分解,以及更低的每层重建误差。

🔬 方法详解

问题定义:论文旨在解决图像层分解模型训练中对大量配对监督数据的依赖问题。现有方法需要精确的图像及其对应的层分解标注,这使得训练成本高昂,并且模型的泛化能力受到限制。此外,人工标注的质量也可能影响模型的性能。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)作为奖励函数,通过强化学习来微调预训练的层分解模型。VLM能够理解图像内容并评估层分解的质量,从而替代人工标注,实现无监督或弱监督的训练。这种方法降低了对配对数据的需求,并有可能提高模型的泛化能力。

技术框架:Stable-Layers框架主要包含以下几个模块:1) 预训练的层分解模型(Qwen-Image-Layered);2) Flow-GRPO强化学习算法,结合LoRA适配;3) VLM评分模块,用于评估候选层分解的质量;4) 两阶段评估流程,包括结构化单样本评分和基于网格的校准步骤。整体流程是,首先使用层分解模型生成多个候选分解,然后使用VLM对这些候选分解进行评分,最后使用Flow-GRPO算法根据VLM的评分优化层分解模型的策略。

关键创新:该论文最重要的技术创新点在于使用VLM作为奖励函数,通过强化学习来微调层分解模型,从而避免了对配对监督数据的依赖。此外,论文提出的两阶段评估流程有效地解决了VLM评分压缩问题,提高了奖励信号的可靠性。

关键设计:论文的关键设计包括:1) 使用Flow-GRPO算法进行策略优化,该算法能够有效地利用组相对优势信息;2) 使用LoRA适配来微调预训练模型,降低了计算成本;3) 设计了结构化的单样本评分标准,从多个维度评估层分解的质量;4) 采用基于网格的校准步骤,对VLM的评分进行校准,提高评分的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Stable-Layers在Crello数据集上取得了显著的性能提升。与基线模型相比,Stable-Layers生成的层分解具有更强的层分离效果,更少的空白或伪影层,以及更低的每层重建误差。这些结果表明,Stable-Layers能够有效地提高图像层分解的质量。

🎯 应用场景

Stable-Layers具有广泛的应用前景,例如图像编辑、图像合成、视觉特效制作等。通过高质量的图像层分解,可以更方便地对图像进行修改和重组,从而提高图像处理的效率和质量。此外,该方法还可以应用于机器人视觉、自动驾驶等领域,帮助机器人更好地理解和处理图像信息。

📄 摘要(原文)

We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision by fine-tuning a pretrained layer decomposition model using only feedback from a vision-language model (VLM). Starting from Qwen-Image-Layered, we apply Flow-GRPO with LoRA adaptation, sampling multiple candidate decompositions per image, scoring them with a VLM, and optimising the policy from group-relative advantages. The key challenge lies in designing a reliable reward signal: VLMs scoring samples in isolation tend to compress their judgements into a narrow band, leaving GRPO with little within-group variance to learn from. We address this with a two-stage evaluation pipeline that pairs structured per-sample scoring across five edit-centric criteria with a grid-based calibration step in which the VLM re-scores all candidates side-by-side. Stable-Layers produces decompositions with stronger layer separation, fewer blank or artifact-heavy layers, and lower per-layer reconstruction error on the Crello dataset compared to the base model.