StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models

📄 arXiv: 2508.05383v1 📥 PDF

作者: Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Qin, Zhiping Liu, Liang Hu, Tong Sun, Yuchen Wu, Zewei Sun, Chenwei Lou, Hua Zheng, Tianyang Zhan, Changbao Wang, Shuangzhi Wu, Zefa Lin, Chang Guo, Sihang Yuan, Riwei Chen, Shixiong Zhao, Yingping Zhang, Gaowei Wu, Bihui Yu, Jiahui Wu, Zhehui Zhao, Qianqian Liu, Ruofeng Tang, Xingyue Huang, Bing Zhao, Mengyang Zhang, Youqiang Zhou

分类: cs.AI

发布日期: 2025-08-07


💡 一句话要点

StructVRM:通过结构化可验证奖励模型对齐多模态推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 奖励模型 结构化学习 视觉语言模型 STEM教育

📋 核心要点

  1. 现有视觉-语言模型难以处理复杂推理任务,缺乏对部分正确性的有效利用,导致学习效率低下。
  2. StructVRM提出一种结构化可验证奖励模型,通过细粒度的子问题级别反馈,提升模型推理能力。
  3. 实验表明,StructVRM在多个多模态基准测试中达到SOTA,验证了其在复杂推理任务中的有效性。

📝 摘要(中文)

现有的视觉-语言模型在复杂的多问题推理任务中表现不佳,而部分正确性对于有效的学习至关重要。传统的奖励机制为整个响应提供单一的二元分数,对于指导模型解决包含多个子部分的复杂问题来说过于粗糙。为了解决这个问题,我们引入了StructVRM,一种通过结构化和可验证的奖励模型来对齐多模态推理的方法。其核心是一个基于模型的验证器,经过训练可以提供细粒度的、子问题级别的反馈,评估语义和数学上的等价性,而不是依赖于严格的字符串匹配。这使得在以前难以处理的问题形式中进行细致的、部分信用评分成为可能。大量的实验证明了StructVRM的有效性。我们训练的模型Seed-StructVRM在十二个公共多模态基准测试中的六个以及我们新策划的高难度STEM-Bench上实现了最先进的性能。StructVRM的成功验证了使用结构化、可验证的奖励进行训练是提高多模态模型在复杂、真实世界推理领域能力的一种非常有效的方法。

🔬 方法详解

问题定义:现有视觉-语言模型在处理需要多步骤推理和部分正确性评估的复杂任务时面临挑战。传统的奖励机制(如二元奖励)无法提供足够的指导信号,模型难以学习到正确的推理路径。现有方法依赖于严格的字符串匹配,无法处理语义等价但表达不同的答案,导致模型泛化能力不足。

核心思路:StructVRM的核心思路是引入一个基于模型的验证器,该验证器能够对多步骤推理任务的每个子问题进行细粒度的评估,并提供相应的奖励。通过这种结构化的奖励机制,模型可以更好地学习到正确的推理步骤,并获得部分正确性的奖励,从而提高学习效率和泛化能力。

技术框架:StructVRM包含以下主要模块:1) 多模态模型:负责接收输入(例如图像和问题),并生成答案。2) 基于模型的验证器:负责评估多模态模型生成的答案,并为每个子问题提供细粒度的奖励。验证器通过训练来判断语义和数学上的等价性,而不是依赖于字符串匹配。3) 奖励整合模块:负责将子问题的奖励整合为最终的奖励信号,用于训练多模态模型。整个流程是一个迭代的过程,多模态模型根据验证器的反馈不断优化其推理能力。

关键创新:StructVRM的关键创新在于引入了结构化和可验证的奖励模型。传统的奖励模型通常是二元的,只能提供粗粒度的反馈。而StructVRM的奖励模型能够提供细粒度的、子问题级别的反馈,并且能够验证答案的语义和数学等价性。这种结构化的奖励机制使得模型能够更好地学习到正确的推理步骤,并获得部分正确性的奖励。

关键设计:StructVRM的关键设计包括:1) 验证器的训练:验证器需要通过大量的数据进行训练,才能准确地评估答案的语义和数学等价性。训练数据可以包括正确答案、错误答案以及部分正确的答案。2) 奖励函数的设计:奖励函数需要能够反映答案的正确程度,并且能够激励模型学习到正确的推理步骤。3) 多模态模型的选择:可以选择各种现有的多模态模型作为StructVRM的基础模型,例如基于Transformer的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Seed-StructVRM在六个公共多模态基准测试和新策划的STEM-Bench上取得了SOTA性能,证明了StructVRM的有效性。该模型通过细粒度的奖励机制,显著提升了在复杂推理任务中的准确性和泛化能力。

🎯 应用场景

StructVRM可应用于需要复杂推理和部分正确性评估的各种领域,例如科学问题解答、数学问题求解、代码生成和机器人导航。该方法能够提高模型在这些领域的性能和可靠性,并促进人工智能在实际应用中的发展。

📄 摘要(原文)

Existing Vision-Language Models often struggle with complex, multi-question reasoning tasks where partial correctness is crucial for effective learning. Traditional reward mechanisms, which provide a single binary score for an entire response, are too coarse to guide models through intricate problems with multiple sub-parts. To address this, we introduce StructVRM, a method that aligns multimodal reasoning with Structured and Verifiable Reward Models. At its core is a model-based verifier trained to provide fine-grained, sub-question-level feedback, assessing semantic and mathematical equivalence rather than relying on rigid string matching. This allows for nuanced, partial credit scoring in previously intractable problem formats. Extensive experiments demonstrate the effectiveness of StructVRM. Our trained model, Seed-StructVRM, achieves state-of-the-art performance on six out of twelve public multimodal benchmarks and our newly curated, high-difficulty STEM-Bench. The success of StructVRM validates that training with structured, verifiable rewards is a highly effective approach for advancing the capabilities of multimodal models in complex, real-world reasoning domains.