X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

📄 arXiv: 2505.03981v1 📥 PDF

作者: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-05-06


💡 一句话要点

提出X-Reasoner,通过通用领域文本后训练实现跨模态和领域的推理泛化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 领域泛化 视觉-语言模型 后训练 强化学习 医学应用 长链思维 知识蒸馏

📋 核心要点

  1. 现有开源推理模型主要集中于文本,且评估范围有限,缺乏跨模态和领域的泛化能力。
  2. X-Reasoner通过通用领域文本后训练,结合监督微调和强化学习,实现推理能力的泛化。
  3. 实验表明,X-Reasoner在多模态和领域外任务上优于现有模型,并在医学领域达到新的SOTA。

📝 摘要(中文)

最近的专有模型(例如o3)已经开始展示出强大的多模态推理能力。然而,目前大多数开源研究集中于训练纯文本推理模型,并且评估主要局限于数学和通用领域任务。因此,如何有效地将推理能力扩展到文本输入和通用领域之外仍然不清楚。本文探讨了一个基本的研究问题:推理是否可以在模态和领域之间泛化?我们的发现支持肯定的答案:基于通用领域文本的后训练可以实现这种强大的可泛化推理。基于这一发现,我们引入了X-Reasoner,一个仅使用通用领域文本进行后训练的视觉-语言模型,用于可泛化推理,采用两阶段方法:首先是使用提炼的长链思维进行监督微调,然后是使用可验证奖励进行强化学习。实验表明,X-Reasoner成功地将推理能力转移到多模态和领域外设置,在各种通用和医学基准测试中优于使用领域内和多模态数据训练的现有最先进模型(图1)。此外,我们发现,通过在领域特定文本数据上进行持续训练,可以进一步提高X-Reasoner在特定领域的性能。在此基础上,我们推出了X-Reasoner-Med,这是一个医学专业变体,在众多纯文本和多模态医学基准测试中实现了新的最先进水平。

🔬 方法详解

问题定义:论文旨在解决现有推理模型在跨模态和跨领域推理能力上的不足。现有方法主要集中于特定领域或模态的数据训练,导致模型难以泛化到新的场景。尤其是在医学等专业领域,缺乏能够有效利用多模态信息进行推理的模型。

核心思路:论文的核心思路是利用通用领域文本进行后训练,使模型获得更广泛的推理能力。作者认为,通过在通用文本数据上进行训练,模型可以学习到通用的推理模式和知识,从而更容易迁移到新的领域和模态。这种方法避免了直接在目标领域进行大量标注的需要,降低了训练成本。

技术框架:X-Reasoner的训练分为两个阶段:1) 监督微调阶段:使用蒸馏的长链思维数据对模型进行微调,使其具备初步的推理能力。2) 强化学习阶段:使用可验证的奖励信号对模型进行强化学习,进一步提升推理的准确性和可靠性。整个框架以一个视觉-语言模型为基础,通过后训练的方式逐步提升其推理能力。

关键创新:论文的关键创新在于发现通用领域文本后训练可以有效提升模型的跨模态和跨领域推理能力。与以往依赖特定领域数据训练的方法不同,X-Reasoner通过通用知识的学习,实现了更好的泛化性能。此外,两阶段训练方法也保证了模型在推理能力和准确性上的平衡。

关键设计:在监督微调阶段,使用了蒸馏的长链思维数据,这有助于模型学习推理的步骤和逻辑。在强化学习阶段,使用了可验证的奖励信号,这可以有效地引导模型学习正确的推理路径。具体的网络结构和参数设置在论文中可能有所描述(未知)。损失函数的设计也可能针对推理任务进行了优化(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

X-Reasoner在多个通用和医学基准测试中超越了现有最先进的模型,证明了其强大的跨模态和跨领域推理能力。特别是在医学领域,X-Reasoner-Med在多个文本和多模态医学基准测试中取得了新的SOTA,表明其在专业领域的应用潜力巨大。具体的性能提升数据需要在论文中查找(未知)。

🎯 应用场景

X-Reasoner具有广泛的应用前景,尤其是在医疗诊断、智能问答、多模态信息检索等领域。它可以帮助医生进行更准确的疾病诊断,为用户提供更智能的问答服务,并实现跨模态信息的有效整合和利用。该研究有望推动人工智能技术在各个领域的应用,并带来更智能、更便捷的生活体验。

📄 摘要(原文)

Recent proprietary models (e.g., o3) have begun to demonstrate strong multimodal reasoning capabilities. Yet, most existing open-source research concentrates on training text-only reasoning models, with evaluations limited to mainly mathematical and general-domain tasks. Therefore, it remains unclear how to effectively extend reasoning capabilities beyond text input and general domains. This paper explores a fundamental research question: Is reasoning generalizable across modalities and domains? Our findings support an affirmative answer: General-domain text-based post-training can enable such strong generalizable reasoning. Leveraging this finding, we introduce X-Reasoner, a vision-language model post-trained solely on general-domain text for generalizable reasoning, using a two-stage approach: an initial supervised fine-tuning phase with distilled long chain-of-thoughts, followed by reinforcement learning with verifiable rewards. Experiments show that X-Reasoner successfully transfers reasoning capabilities to both multimodal and out-of-domain settings, outperforming existing state-of-the-art models trained with in-domain and multimodal data across various general and medical benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in specialized domains can be further enhanced through continued training on domain-specific text-only data. Building upon this, we introduce X-Reasoner-Med, a medical-specialized variant that achieves new state of the art on numerous text-only and multimodal medical benchmarks.