Visual-ERM: Reward Modeling for Visual Equivalence

📄 arXiv: 2603.13224v1 📥 PDF

作者: Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: Project: https://github.com/InternLM/Visual-ERM


💡 一句话要点

提出Visual-ERM,用于视觉等价的奖励建模,提升Vision-to-Code任务性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉等价 奖励建模 Vision-to-Code 强化学习 多模态生成模型

📋 核心要点

  1. 现有Vision-to-Code方法依赖文本规则或粗糙视觉嵌入相似度,无法捕捉细粒度视觉差异,易受奖励利用攻击。
  2. Visual-ERM通过多模态生成模型,在渲染视觉空间提供细粒度、可解释的任务无关反馈,提升奖励信号质量。
  3. 实验表明,Visual-ERM显著提升了Qwen3-VL在图表、表格和SVG解析任务上的性能,并在VC-RewardBench上表现出色。

📝 摘要(中文)

本文提出了一种视觉等价奖励模型(Visual-ERM),用于解决Vision-to-Code任务中奖励信号错位的问题。该模型是一种多模态生成奖励模型,能够提供细粒度、可解释且任务无关的反馈,直接在渲染的视觉空间中评估vision-to-code的质量。通过集成到强化学习中,Visual-ERM在chart-to-code任务上将Qwen3-VL-8B-Instruct提升了+8.4,并在table和SVG解析任务上取得了持续的收益(平均+2.7,+4.1)。此外,论文还引入了VisualCritic-RewardBench (VC-RewardBench),这是一个用于判断结构化视觉数据上细粒度图像差异的基准,Visual-ERM (8B) 在该基准上显著优于Qwen3-VL-235B-Instruct,并接近领先的闭源模型。实验结果表明,细粒度的视觉奖励监督对于vision-to-code的强化学习是必要且充分的,与任务的特定性无关。

🔬 方法详解

问题定义:Vision-to-Code任务旨在将视觉输入(如图表、表格、SVG)转换为可执行或结构化的表示,需要模型具备高度的视觉保真度。然而,现有的强化学习方法在训练此类模型时,面临奖励信号错位的问题。具体来说,现有的奖励函数要么依赖于文本规则,要么依赖于粗糙的视觉嵌入相似度,这些方法无法捕捉到细粒度的视觉差异,并且容易受到奖励利用(reward hacking)的攻击。

核心思路:论文的核心思路是设计一个能够直接在渲染的视觉空间中评估vision-to-code质量的奖励模型。该模型需要能够提供细粒度、可解释且任务无关的反馈,从而克服现有方法的局限性。通过将该奖励模型集成到强化学习框架中,可以更有效地训练Vision-to-Code模型。

技术框架:Visual-ERM是一个多模态生成奖励模型,其整体框架包含以下几个主要模块:1) 视觉编码器:用于提取输入图像的视觉特征。2) 代码编码器:用于提取生成代码的语义特征。3) 多模态融合模块:将视觉特征和代码特征进行融合,得到联合表示。4) 生成器:基于联合表示生成目标图像。5) 判别器:判断生成的图像与真实图像的相似度,输出奖励信号。整个流程通过强化学习进行训练,目标是最大化判别器输出的奖励信号。

关键创新:Visual-ERM最重要的技术创新点在于其细粒度的视觉奖励建模方式。与现有方法不同,Visual-ERM不是直接比较视觉嵌入的相似度,而是通过生成目标图像,并在像素级别上进行比较,从而能够捕捉到更细微的视觉差异。此外,Visual-ERM还具有可解释性,可以分析模型生成图像的哪些部分与真实图像存在差异,从而为模型的改进提供指导。

关键设计:Visual-ERM的关键设计包括:1) 使用预训练的视觉语言模型(如Qwen3-VL)作为视觉编码器和代码编码器,以获得更好的特征表示能力。2) 使用Transformer结构作为多模态融合模块,以有效地融合视觉特征和代码特征。3) 使用生成对抗网络(GAN)作为生成器和判别器,以生成高质量的目标图像。4) 使用像素级别的损失函数(如L1损失或L2损失)来衡量生成图像与真实图像的相似度。5) 通过调整GAN的训练策略,平衡生成器和判别器的训练,避免模式崩溃。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Visual-ERM在chart-to-code任务上将Qwen3-VL-8B-Instruct提升了+8.4,并在table和SVG解析任务上取得了持续的收益(平均+2.7,+4.1)。在VC-RewardBench基准测试中,Visual-ERM (8B) 显著优于Qwen3-VL-235B-Instruct,并接近领先的闭源模型,验证了细粒度视觉奖励监督的有效性。

🎯 应用场景

Visual-ERM在视觉到代码任务中具有广泛的应用前景,例如自动化图表生成、表格识别与重建、SVG图像解析与编辑等。该研究成果有助于提升视觉内容理解和生成模型的性能,为智能文档处理、数据可视化和人机交互等领域带来实际价值,并可能推动更通用的人工智能系统发展。

📄 摘要(原文)

Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.