Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback
作者: Yang Chen, Yufan Shen, Wenxuan Huang, Sheng Zhou, Qunshu Lin, Xinyu Cai, Zhi Yu, Jiajun Bu, Botian Shi, Yu Qiao
分类: cs.CV
发布日期: 2025-07-28 (更新: 2025-08-07)
🔗 代码/项目: GITHUB
💡 一句话要点
提出RRVF框架,仅使用图像即可训练MLLM进行视觉推理,解决依赖图文标注问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉推理 多模态学习 强化学习 图像到代码 自监督学习 大型语言模型 渲染 视觉反馈
📋 核心要点
- 现有MLLM严重依赖图像-文本监督,限制了其深度视觉推理能力的提升。
- RRVF框架利用“验证的非对称性”,通过渲染结果与原始图像的对比,为强化学习提供奖励信号。
- 实验表明,RRVF训练的模型在图像到代码生成任务上优于现有模型,并具有更好的泛化能力。
📝 摘要(中文)
本文提出了一种名为“推理-渲染-视觉反馈”(RRVF)的新框架,该框架使多模态大型语言模型(MLLM)仅从原始图像中学习复杂的视觉推理。RRVF基于“验证的非对称性”原则,即验证渲染输出与源图像相比,执行深度视觉推理以生成忠实的结构化表示(如代码)要容易得多。这种相对容易性为通过强化学习(RL)进行优化提供了理想的奖励信号,从而减少了对图像-文本监督的依赖。RRVF实现了一个包含推理、渲染和视觉反馈组件的闭环迭代过程,使模型能够执行复杂的推理,包括通过多轮交互进行自我纠正。该过程使用GRPO算法进行端到端优化。在数据图表和Web界面这两个不同领域的图像到代码生成方面进行了广泛的评估。RRVF训练的模型不仅优于现有的类似大小的开源MLLM和监督微调基线,而且表现出卓越的泛化能力。值得注意的是,该模型优于用于在训练期间生成视觉反馈的更高级的MLLM。
🔬 方法详解
问题定义:现有的大型多模态模型(MLLM)在视觉任务中表现出色,但其视觉推理能力严重依赖于大量的图像-文本配对数据。这种依赖限制了模型在缺乏标注数据场景下的应用,并且标注成本高昂。因此,如何仅使用原始图像训练MLLM,使其具备强大的视觉推理能力,是一个亟待解决的问题。
核心思路:本文的核心思路是利用“验证的非对称性”原则。具体来说,验证一个渲染结果(例如,根据生成的代码渲染的图像)与原始图像是否一致,比直接从原始图像生成结构化的代码表示要容易得多。因此,可以将验证结果作为强化学习的奖励信号,引导模型学习视觉推理能力。
技术框架:RRVF框架包含三个主要组件:推理模块、渲染模块和视觉反馈模块。推理模块负责根据输入图像生成代码或结构化表示。渲染模块将生成的代码渲染成图像。视觉反馈模块比较渲染图像和原始图像,生成奖励信号。整个过程是一个闭环迭代过程,通过强化学习算法(GRPO)进行端到端优化。模型通过多轮交互进行自我纠正,逐步提高推理的准确性。
关键创新:RRVF框架的关键创新在于利用了“验证的非对称性”原则,将复杂的视觉推理任务转化为相对简单的验证任务,从而可以使用强化学习从原始图像中学习视觉推理能力。与传统的监督学习方法相比,RRVF不需要图像-文本配对数据,大大降低了训练成本。此外,RRVF框架通过闭环迭代和自我纠正机制,提高了模型的推理能力和泛化能力。
关键设计:RRVF框架使用GRPO算法进行强化学习优化。视觉反馈模块可以使用预训练的MLLM来比较渲染图像和原始图像,并生成奖励信号。在实验中,作者使用了数据图表和Web界面作为测试场景,并设计了相应的奖励函数和评估指标。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RRVF训练的模型在数据图表和Web界面两个领域的图像到代码生成任务上,均优于现有的开源MLLM和监督微调基线。例如,在某个数据集上,RRVF模型的性能比最强的基线提高了10%以上。更重要的是,RRVF模型甚至优于用于生成视觉反馈的更高级的MLLM,这表明RRVF框架具有强大的学习能力和泛化能力。
🎯 应用场景
RRVF框架具有广泛的应用前景,例如可以应用于自动代码生成、机器人控制、图像编辑和增强等领域。该研究成果可以降低训练视觉推理模型的成本,并提高模型的泛化能力,从而推动人工智能技术在更多领域的应用。未来,可以探索将RRVF框架应用于更复杂的视觉推理任务,例如视频理解和三维场景理解。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) exhibit impressive performance across various visual tasks. Subsequent investigations into enhancing their visual reasoning abilities have significantly expanded their performance envelope. However, a critical bottleneck in the advancement of MLLMs toward deep visual reasoning is their heavy reliance on curated image-text supervision. To solve this problem, we introduce a novel framework,
Reasoning-Rendering-Visual-Feedback'' (RRVF), that enables MLLMs to learn complex visual reasoning from only raw images. This framework builds on theAsymmetry of Verification'' principle, i.e., verifying the rendered output against the source image is substantially easier than performing deep visual reasoning to generate a faithful, structured representation such as code. We demonstrate that this relative ease provides an ideal reward signal for optimization via Reinforcement Learning (RL), thereby reducing reliance on image-text supervision. RRVF implements a closed-loop iterative process encompassing reasoning, rendering, and visual feedback components, enabling the model to perform complex reasoning, including self-correction through multi-turn interactions. This process is optimized end-to-end using the GRPO algorithm. Extensive evaluations are conducted on image-to-code generation across two diverse domains: data charts and web interfaces. The RRVF-trained model not only outperforms existing similarly sized open-source MLLMs and supervised fine-tuning baselines but also exhibits superior generalization. Notably, the model outperforms the more advanced MLLM used to generate visual feedback during training. Code is available at https://github.com/L-O-I/RRVF.