ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

📄 arXiv: 2512.05111v1 📥 PDF

作者: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang

分类: cs.CV

发布日期: 2025-12-04


💡 一句话要点

提出ARM-Thinker以解决多模态奖励模型的验证问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态奖励模型 工具使用 视觉推理 强化学习 模型验证 智能系统 人机交互

📋 核心要点

  1. 现有奖励模型在多模态推理任务中存在幻觉、视觉基础薄弱和缺乏工具验证能力等问题,影响了其可靠性。
  2. ARM-Thinker通过自主调用外部工具来增强奖励模型的验证能力,能够基于可验证的证据进行判断。
  3. 实验结果显示,ARM-Thinker在奖励建模基准上平均提升16.2%,在工具使用任务上提升9.6%,表现优于现有基线。

📝 摘要(中文)

奖励模型对于将视觉-语言系统与人类偏好对齐至关重要,但现有方法存在幻觉、视觉基础薄弱和无法使用工具进行验证等问题,限制了其在复杂多模态推理任务中的可靠性。本文提出ARM-Thinker,一种能够自主调用外部工具(如图像裁剪、文档页面检索)的多模态奖励模型,以可验证的证据为基础进行判断,取代静态的非交互式奖励评分。这使得模型能够验证细粒度的视觉细节、交叉引用多页证据并验证推理声明,这些能力在现有奖励模型中是缺失的。通过多阶段强化学习训练ARM-Thinker,联合优化工具调用决策和判断准确性。我们还引入了ARMBench-VL评估代理奖励建模,包括三个基准,评估细粒度视觉基础(图像级工具)、多页文档理解(检索工具)和指令跟随(文本级验证)。ARM-Thinker在奖励建模基准上平均提升16.2%,在工具使用任务上提升9.6%,并在多模态数学和逻辑推理基准上超越了基线。我们的结果表明,代理能力显著提高了奖励模型的准确性和可解释性。

🔬 方法详解

问题定义:本文旨在解决现有多模态奖励模型在复杂推理任务中存在的幻觉、视觉基础薄弱和无法使用工具进行验证的问题,这些问题限制了模型的可靠性和有效性。

核心思路:ARM-Thinker的核心思路是通过自主调用外部工具来增强模型的判断能力,使其能够基于可验证的证据进行决策,从而提高模型的准确性和可解释性。

技术框架:ARM-Thinker的整体架构包括多个模块,首先是工具调用决策模块,负责选择合适的外部工具;其次是判断模块,基于工具返回的结果进行判断;最后是反馈机制,通过多阶段强化学习优化工具调用和判断的准确性。

关键创新:ARM-Thinker的关键创新在于其代理能力,能够自主选择和调用外部工具进行验证,这一特性在现有奖励模型中是前所未有的,显著提升了模型的实用性和可靠性。

关键设计:在训练过程中,采用多阶段强化学习策略,设计了适应性损失函数,以优化工具调用的决策和判断的准确性,确保模型能够有效地利用外部工具进行验证。具体的网络结构和参数设置在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARM-Thinker在奖励建模基准上实现了平均16.2%的提升,在工具使用任务上提升了9.6%。此外,在多模态数学和逻辑推理基准中,ARM-Thinker的表现超越了现有的基线模型,显示出其显著的性能优势。

🎯 应用场景

ARM-Thinker的研究成果在多个领域具有潜在应用价值,包括智能问答系统、自动化文档分析和多模态内容生成等。通过增强模型的验证能力,能够提高系统在复杂任务中的表现,未来可能推动人机交互的进一步发展。

📄 摘要(原文)

Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.