S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images
作者: Qingxiao Li, Lifeng Xu, QingLi Wang, Yudong Bai, Mingwei Ou, Shu Hu, Nan Xu
分类: cs.CV
发布日期: 2026-04-23
备注: 29 pages, 13 figures
💡 一句话要点
S1-VL:融合科学推理与图像交互的多模态模型,提升科学领域问题求解能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 科学推理 图像交互式思考 思维链 强化学习
📋 核心要点
- 现有方法在处理科学领域复杂问题时,缺乏有效的图像理解和操作能力,限制了推理的准确性和效率。
- S1-VL模型通过“图像交互式思考”范式,允许模型主动生成和执行图像处理代码,从而增强视觉推理能力。
- 实验结果表明,S1-VL在多个科学推理和图像交互基准测试中取得了显著的性能提升,达到state-of-the-art水平。
📝 摘要(中文)
S1-VL是一个用于科学领域的多模态推理模型,它原生支持两种互补的推理范式:依赖于结构化思维链的科学推理,以及支持模型通过Python代码执行主动操作图像的“图像交互式思考”。在图像交互式思考模式下,模型在沙箱环境中生成并执行图像处理代码,获取中间视觉结果,并以多轮迭代的方式继续推理。这种设计对于高分辨率科学图表解释、显微图像理解和几何辅助推理等具有挑战性的场景尤其有效。为了构建训练数据,我们收集了涵盖数学、物理、化学、天文学、地理和生物学六个学科的科学多模态数据集。我们进一步开发了一个六维质量过滤框架用于推理轨迹。为了减轻现有数据集中常见的冗余、无效和错误的视觉操作,我们提出了一个多阶段过滤管道以及自适应数据路由策略。该策略将视觉信息增益低的样本转换为纯推理模式数据,使模型能够学习何时真正需要图像操作。S1-VL通过一个四阶段渐进式管道进行训练:科学多模态SFT、图像交互式思考冷启动SFT,以及两个阶段的基于SAPO的强化学习。我们在Qwen3-VL-32B-Thinking之上构建了S1-VL-32B,并在13个基准上对其进行了评估。实验结果表明,S1-VL-32B在所有五个图像交互式思考基准(包括HRBench-4K、HRBench-8K、MME-RealWorld-CN、MME-RealWorld-Lite和V*)上都取得了最先进的性能,并且在物理和VRSBench等科学推理基准上优于同类系统。
🔬 方法详解
问题定义:论文旨在解决科学领域中复杂的多模态推理问题,特别是那些需要结合图像信息进行推理的问题。现有方法要么缺乏对图像的深入理解,要么无法有效地利用图像进行辅助推理,导致在处理高分辨率图表、显微图像等任务时表现不佳。现有方法的痛点在于无法灵活地操作图像,提取关键信息,并将其融入到推理过程中。
核心思路:论文的核心思路是引入“图像交互式思考”的范式,让模型能够像人类科学家一样,主动地操作图像,从中提取有用的信息,并将其用于推理。模型通过生成和执行Python代码来处理图像,从而实现对图像的灵活控制和深入理解。这种方法能够有效地解决现有方法在处理复杂图像推理问题时的局限性。
技术框架:S1-VL的整体框架包含以下几个主要模块:1) 多模态输入编码器:用于将文本和图像信息编码成统一的向量表示。2) 推理模块:基于Transformer架构,负责进行科学推理和图像操作代码的生成。3) 代码执行环境:一个沙箱环境,用于安全地执行模型生成的Python代码,并获取图像处理的结果。4) 强化学习模块:使用SAPO算法对模型进行微调,以优化推理策略和图像操作代码的生成。整个流程是一个多轮迭代的过程,模型根据当前状态生成代码,执行代码获取结果,然后将结果反馈给推理模块,进行下一轮的推理和代码生成。
关键创新:S1-VL最重要的创新点在于“图像交互式思考”的范式,它允许模型主动地操作图像,而不是被动地接收图像信息。这种方法能够极大地增强模型在处理复杂图像推理问题时的能力。此外,论文还提出了一个多阶段的质量过滤管道和自适应数据路由策略,用于构建高质量的训练数据,从而提高模型的性能。
关键设计:在训练过程中,论文采用了四阶段渐进式训练策略:1) 科学多模态SFT:使用科学领域的多模态数据对模型进行预训练。2) 图像交互式思考冷启动SFT:使用图像交互式思考数据对模型进行冷启动,使其初步具备图像操作能力。3) 基于SAPO的强化学习:使用SAPO算法对模型进行微调,以优化推理策略和图像操作代码的生成。4) 进一步的强化学习微调。在数据过滤方面,论文提出了一个六维质量过滤框架,用于评估推理轨迹的质量,并过滤掉冗余、无效和错误的视觉操作。自适应数据路由策略则根据视觉信息增益的大小,将样本分配到不同的训练阶段。
📊 实验亮点
S1-VL-32B在五个图像交互式思考基准测试(HRBench-4K、HRBench-8K、MME-RealWorld-CN、MME-RealWorld-Lite和V*)上均取得了state-of-the-art的性能。此外,在科学推理基准测试(如Physics和VRSBench)中,S1-VL也优于其他对比系统,验证了其在科学领域多模态推理方面的优越性。
🎯 应用场景
S1-VL在科学研究领域具有广泛的应用前景,例如自动化科学文献解读、智能实验设计、医学图像诊断、遥感数据分析等。该模型能够帮助科学家更高效地分析数据、发现规律,并加速科学研究的进程。未来,S1-VL有望成为科研人员的重要辅助工具。
📄 摘要(原文)
We present S1-VL, a multimodal reasoning model for scientific domains that natively supports two complementary reasoning paradigms: Scientific Reasoning, which relies on structured chain-of-thought, and Thinking-with-Images, which enables the model to actively manipulate images through Python code execution during reasoning. In the Thinking-with-Images mode, the model generates and executes image-processing code in a sandbox environment, obtains intermediate visual results, and continues reasoning in a multi-turn iterative manner. This design is particularly effective for challenging scenarios such as high-resolution scientific chart interpretation, microscopic image understanding, and geometry-assisted reasoning. To construct the training data, we collect scientific multimodal datasets spanning six disciplines: mathematics, physics, chemistry, astronomy, geography, and biology. We further develop a six-dimensional quality filtering framework for reasoning trajectories. To mitigate redundant, ineffective, and erroneous visual operations commonly found in existing datasets, we propose a multi-stage filtering pipeline together with an adaptive data routing strategy. This strategy converts samples with low visual information gain into pure Reasoning-mode data, enabling the model to learn when image operations are truly necessary. S1-VL is trained through a four-stage progressive pipeline: scientific multimodal SFT, Thinking-with-Images cold-start SFT, and two stages of reinforcement learning with SAPO. We build S1-VL-32B on top of Qwen3-VL-32B-Thinking and evaluate it on 13 benchmarks. Experimental results show that S1-VL-32B achieves state-of-the-art performance on all five Thinking-with-Images benchmarks, including HRBench-4K, HRBench-8K, MME-RealWorld-CN, MME-RealWorld-Lite, and V*, and outperforms compared systems on scientific reasoning benchmarks such as Physics and VRSBench.