RECODE: Reasoning Through Code Generation for Visual Question Answering

📄 arXiv: 2510.13756v1 📥 PDF

作者: Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-15


💡 一句话要点

提出RECODE框架,通过代码生成实现视觉问答中更精确的可验证推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 代码生成 反向渲染 多模态推理 可验证推理

📋 核心要点

  1. 多模态大语言模型在处理结构化视觉信息时,缺乏有效的验证机制,导致推理精度不足。
  2. RECODE框架通过生成可执行代码来重构图像,将视觉推理转化为可验证的符号问题,提升推理精度。
  3. 在多个视觉推理基准测试中,RECODE显著优于现有方法,验证了基于代码的视觉推理的有效性。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在处理图表等结构化视觉信息时,由于基于像素的感知缺乏验证机制,难以进行精确推理。为了解决这个问题,我们提出利用反向渲染——将视觉信息逆向工程为可执行代码的过程——作为一种新的可验证视觉推理方式。具体来说,我们提出了RECODE,一个agentic框架,它首先生成多个候选程序来重现输入图像,然后使用评论器选择最忠实的重建,并迭代地改进代码。这个过程不仅将模糊的感知任务转化为可验证的符号问题,而且还能够在后续进行精确的计算和逻辑推理。在CharXiv、ChartQA和Geometry3K等各种视觉推理基准测试中,RECODE显著优于不利用代码或仅使用代码绘制辅助线或裁剪的方法。我们的工作表明,将视觉感知建立在可执行代码的基础上,为更准确和可验证的多模态推理提供了一条新的途径。

🔬 方法详解

问题定义:现有的多模态大语言模型在处理如图表、示意图等结构化视觉信息时,依赖于像素级别的感知,缺乏对推理过程的验证机制,容易产生错误。尤其是在需要精确计算或逻辑推理的场景下,性能表现不佳。现有方法通常无法有效地将视觉信息转化为可验证的符号表示,限制了推理的准确性。

核心思路:RECODE的核心思路是将视觉推理问题转化为代码生成和验证问题。通过将图像“反向渲染”为可执行代码,将模糊的像素感知转化为精确的符号表示。这样,模型可以通过执行生成的代码来验证其对图像的理解,从而提高推理的准确性和可信度。这种方法借鉴了程序合成的思想,将视觉信息转化为计算机可以理解和操作的形式。

技术框架:RECODE框架包含以下几个主要模块:1) 代码生成器:生成多个候选程序,用于重构输入图像。2) 代码执行器:执行生成的代码,得到重构后的图像。3) 评论器:评估重构图像与原始图像的相似度,选择最忠实的重建代码。4) 迭代优化器:根据评论器的反馈,迭代地改进代码,直到满足精度要求。整个流程是一个agentic框架,通过不断试错和反馈,最终得到能够精确重构图像的代码。

关键创新:RECODE最重要的技术创新在于将视觉推理问题转化为代码生成和验证问题。与以往仅使用代码绘制辅助线或裁剪的方法不同,RECODE将整个图像的理解和推理过程都建立在可执行代码的基础上。这种方法能够有效地利用代码的精确性和可验证性,从而提高视觉推理的准确性和可信度。

关键设计:RECODE框架的具体实现细节包括:代码生成器可以使用预训练的语言模型进行微调,以生成符合语法规则且能够有效重构图像的代码。评论器可以使用图像相似度度量指标(如SSIM、PSNR)来评估重构图像的质量。迭代优化器可以使用强化学习或梯度下降等方法来改进代码。具体的参数设置和网络结构需要根据具体的任务和数据集进行调整。

📊 实验亮点

RECODE在CharXiv、ChartQA和Geometry3K等多个视觉推理基准测试中取得了显著的性能提升。例如,在ChartQA数据集上,RECODE的性能超过了现有最佳方法,证明了基于代码的视觉推理的有效性。实验结果表明,RECODE能够更准确地理解和推理结构化视觉信息,尤其是在需要精确计算和逻辑推理的场景下。

🎯 应用场景

RECODE框架具有广泛的应用前景,例如可以应用于自动图表分析、科学图表理解、几何问题求解等领域。该研究有助于提升AI系统在处理结构化视觉信息时的推理能力,使其能够更准确地理解和利用视觉数据,从而在教育、科研、金融等领域发挥更大的作用。未来,该技术有望应用于更复杂的视觉推理任务,例如机器人导航、自动驾驶等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) struggle with precise reasoning for structured visuals like charts and diagrams, as pixel-based perception lacks a mechanism for verification. To address this, we propose to leverage derendering -- the process of reverse-engineering visuals into executable code -- as a new modality for verifiable visual reasoning. Specifically, we propose RECODE, an agentic framework that first generates multiple candidate programs to reproduce the input image. It then uses a critic to select the most faithful reconstruction and iteratively refines the code. This process not only transforms an ambiguous perceptual task into a verifiable, symbolic problem, but also enables precise calculations and logical inferences later on. On various visual reasoning benchmarks such as CharXiv, ChartQA, and Geometry3K, RECODE significantly outperforms methods that do not leverage code or only use code for drawing auxiliary lines or cropping. Our work demonstrates that grounding visual perception in executable code provides a new path toward more accurate and verifiable multimodal reasoning.