Thinking with Programming Vision: Towards a Unified View for Thinking with Images
作者: Zirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin
分类: cs.CV, cs.CL
发布日期: 2025-12-03
🔗 代码/项目: GITHUB
💡 一句话要点
CodeVision:提出基于代码的通用图像操作框架,提升多模态大模型视觉推理的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉推理 代码生成 工具学习 强化学习
📋 核心要点
- 现有MLLM在图像方向变化或损坏时性能显著下降,缺乏鲁棒性,限制了实际应用。
- CodeVision提出代码作为通用接口,调用图像操作,摆脱固定工具限制,提升模型灵活性。
- 通过SFT和RL两阶段训练,并引入密集过程奖励,显著提升模型性能和工具使用效率。
📝 摘要(中文)
本文提出了一种名为CodeVision的灵活且可扩展的代码即工具框架,旨在提升多模态大语言模型(MLLM)在视觉推理方面的能力。研究首先揭示了现有MLLM的一个关键弱点:即使是最先进的模型在面对简单的图像方向变化或自然损坏时,性能也会显著下降,这表明需要更鲁棒的基于工具的推理。CodeVision通过生成代码作为通用接口来调用任何图像操作,从而超越了固定的工具注册表。该模型采用两阶段训练方法,首先在高质量数据集上进行监督微调(SFT),该数据集专为复杂、多轮的工具组合和错误恢复而设计,然后通过强化学习(RL)和新颖的密集过程奖励函数来鼓励战略性和高效的工具使用。为了支持这项研究,构建了新的SFT和RL数据集,并引入了一个具有挑战性的新基准测试套件,旨在严格评估对方向变化和多工具推理的鲁棒性。在Qwen2.5-VL和Qwen3-VL系列上的实验表明,该方法显著提高了模型性能,并促进了灵活的工具组合、高效的链式执行以及从运行时反馈中进行鲁棒的错误恢复等新兴能力。
🔬 方法详解
问题定义:现有基于工具的多模态大语言模型在处理视觉输入时,依赖于预定义的工具集,缺乏灵活性和可扩展性。更重要的是,这些模型在面对图像方向变化或自然损坏时表现出脆弱性,性能显著下降,无法满足实际应用的需求。因此,需要一种更鲁棒、更灵活的视觉推理方法。
核心思路:CodeVision的核心思路是将图像操作转化为代码,利用代码作为通用接口,使得模型能够调用任何图像处理函数。通过生成代码,模型可以灵活地组合不同的图像操作,实现复杂的视觉推理任务,并且能够从运行时反馈中进行错误恢复,从而提高模型的鲁棒性和适应性。
技术框架:CodeVision的整体框架包括以下几个主要阶段:1) 数据集构建:构建高质量的SFT和RL数据集,包含复杂的多轮工具组合和错误恢复场景。2) 监督微调(SFT):在SFT数据集上对模型进行微调,使其具备生成代码和调用图像操作的能力。3) 强化学习(RL):使用新颖的密集过程奖励函数,鼓励模型战略性地使用工具,提高工具使用的效率和准确性。4) 评估:使用新的基准测试套件,评估模型在方向变化和多工具推理方面的鲁棒性。
关键创新:CodeVision最重要的创新点在于将代码作为通用接口,实现了对任意图像操作的调用。这与现有方法依赖于固定工具集的方式截然不同,极大地提高了模型的灵活性和可扩展性。此外,密集过程奖励函数的设计也鼓励了模型更高效、更准确地使用工具。
关键设计:在SFT阶段,使用了高质量的数据集,包含多轮对话和复杂的工具组合。在RL阶段,设计了密集的过程奖励函数,对每一步操作进行奖励,鼓励模型选择正确的工具和参数。具体奖励包括:完成任务奖励、工具使用奖励、错误恢复奖励等。模型采用Qwen2.5-VL和Qwen3-VL系列作为基础模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CodeVision在Qwen2.5-VL和Qwen3-VL系列模型上取得了显著的性能提升。在新的基准测试套件上,CodeVision展现出更强的鲁棒性和多工具推理能力。具体而言,CodeVision在处理图像方向变化和自然损坏时,性能下降幅度明显小于现有方法,并且能够更有效地组合多个工具来完成复杂的视觉任务。
🎯 应用场景
CodeVision具有广泛的应用前景,例如智能图像编辑、自动驾驶、机器人视觉、医学图像分析等领域。通过赋予模型更强的视觉推理能力和鲁棒性,可以实现更智能、更可靠的图像处理和分析,从而提高生产效率和决策质量。未来,该技术有望应用于更复杂的视觉任务,例如视频理解和三维场景重建。
📄 摘要(原文)
Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.