iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models

📄 arXiv: 2601.05877v1 📥 PDF

作者: Meghana Sunil, Manikandarajan Venmathimaran, Muthu Subash Kavitha

分类: cs.CL

发布日期: 2026-01-09


💡 一句话要点

iReasoner:轨迹感知的内在推理监督,用于自进化大型多模态模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型多模态模型 自进化学习 内在奖励 思维链 轨迹感知 无监督学习 多模态推理

📋 核心要点

  1. 现有自进化LMM框架对中间推理过程约束不足,影响视觉决策。
  2. iReasoner通过引入轨迹感知的内在奖励,显式引导和奖励CoT推理过程。
  3. 实验表明,iReasoner在无监督后训练中,显著提升了LMM在多模态推理任务上的性能。

📝 摘要(中文)

最近的研究表明,大型多模态模型(LMMs)可以通过自我博弈和内在反馈从无标签数据中进行自我改进。然而,现有的自进化框架主要奖励最终结果,使得中间推理过程受到较弱的约束,尽管中间推理对于视觉基础的决策至关重要。我们提出了iReasoner,一个自进化框架,通过显式地引出思维链(CoT)并奖励其内部一致性来改进LMM的隐式推理。在无标签图像上的提议者-解决者循环中,iReasoner使用在中间推理步骤上定义的轨迹感知信号来增强结果级别的内在奖励,从而提供学习信号,区分导致相同答案的不同推理路径,而无需ground-truth标签或外部评判。从Qwen2.5-VL-7B开始,iReasoner在完全无监督的后训练下,在各种多模态推理基准测试中产生了高达+2.1分的提升。我们希望这项工作可以作为LMMs在纯无监督环境中进行推理感知自我改进的起点。

🔬 方法详解

问题定义:现有的大型多模态模型(LMMs)的自进化框架,在利用无标签数据进行自我改进时,主要关注最终结果的奖励,而忽略了中间推理步骤的监督。这导致模型难以学习到正确的推理路径,尤其是在需要视觉基础的决策任务中,不同的推理过程可能导致相同的最终答案,但只有部分是正确的。因此,如何有效地利用无标签数据,对LMM的中间推理过程进行监督,是一个关键问题。

核心思路:iReasoner的核心思路是通过引入“轨迹感知”的内在奖励,来显式地引导和奖励LMM的中间推理过程。具体来说,iReasoner鼓励模型生成思维链(CoT),并根据CoT内部的一致性来判断推理路径的质量。通过这种方式,即使没有ground-truth标签,iReasoner也能区分出导致相同答案的不同推理路径,并选择更合理的路径进行学习。

技术框架:iReasoner采用一个提议者-解决者(Proposer-Solver)的循环框架。提议者(Proposer)负责生成CoT推理过程,解决者(Solver)负责根据提议者的推理过程给出最终答案。框架包含以下主要阶段:1) 提议者生成CoT;2) 解决者基于CoT给出答案;3) 计算轨迹感知的内在奖励,奖励CoT内部的一致性;4) 利用奖励信号更新模型参数。整个过程在无标签图像上进行,无需人工标注。

关键创新:iReasoner最重要的技术创新在于提出了“轨迹感知”的内在奖励。与传统的只关注最终结果的奖励方式不同,iReasoner的奖励信号是基于中间推理步骤的。具体来说,iReasoner会评估CoT内部的一致性,例如,不同的推理步骤是否支持相同的结论。通过这种方式,iReasoner能够区分出不同的推理路径,并选择更合理的路径进行学习,从而提高模型的推理能力。

关键设计:iReasoner的关键设计包括:1) CoT的生成方式:采用prompting技术,引导LMM生成CoT;2) 一致性评估方法:通过计算不同推理步骤之间的语义相似度来评估CoT内部的一致性;3) 奖励函数的设计:将一致性评估结果作为奖励信号,用于更新模型参数;4) 模型选择:选择Qwen2.5-VL-7B作为基础模型,因为它具有较强的多模态推理能力。

📊 实验亮点

实验结果表明,iReasoner在多个多模态推理基准测试中取得了显著的性能提升。例如,在完全无监督的后训练下,iReasoner在某些基准测试中获得了高达+2.1分的提升。这些结果表明,iReasoner能够有效地提升LMM的推理能力,并且具有很强的泛化能力。此外,实验还验证了轨迹感知内在奖励的有效性,证明了对中间推理过程进行监督的重要性。

🎯 应用场景

iReasoner具有广泛的应用前景,可用于提升各种LMM在视觉问答、图像理解、机器人导航等领域的性能。通过无监督的自我进化,iReasoner能够降低对人工标注数据的依赖,从而降低模型训练的成本。此外,iReasoner还可以用于探索LMM的内在推理机制,为开发更智能、更可靠的AI系统提供理论基础。

📄 摘要(原文)

Recent work shows that large multimodal models (LMMs) can self-improve from unlabeled data via self-play and intrinsic feedback. Yet existing self-evolving frameworks mainly reward final outcomes, leaving intermediate reasoning weakly constrained despite its importance for visually grounded decision making. We propose iReasoner, a self-evolving framework that improves an LMM's implicit reasoning by explicitly eliciting chain-of-thought (CoT) and rewarding its internal agreement. In a Proposer--Solver loop over unlabeled images, iReasoner augments outcome-level intrinsic rewards with a trajectory-aware signal defined over intermediate reasoning steps, providing learning signals that distinguish reasoning paths leading to the same answer without ground-truth labels or external judges. Starting from Qwen2.5-VL-7B, iReasoner yields up to $+2.1$ points across diverse multimodal reasoning benchmarks under fully unsupervised post-training. We hope this work serves as a starting point for reasoning-aware self-improvement in LMMs in purely unsupervised settings.