Don't Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs

📄 arXiv: 2604.12896v1 📥 PDF

作者: Muhammad Kamran Janjua, Hugo Silva, Di Niu, Bahador Rashidi

分类: cs.CV, cs.LG

发布日期: 2026-04-14

备注: Accepted to CVPR 2026


💡 一句话要点

提出感知程序P²,通过语言原生线索提升多模态大语言模型视觉工具推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉推理 感知程序 视觉工具 语言原生 零样本学习 视觉线索

📋 核心要点

  1. 现有方法直接将视觉工具的像素级输出输入MLLM,导致模型难以有效利用视觉信息,阻碍了视觉推理能力。
  2. 感知程序(P²)将视觉工具的输出转换为紧凑、结构化的语言原生摘要,使MLLM能够直接解析和推理。
  3. 实验表明,P²在多个视觉推理任务上显著提升了MLLM的性能,无需训练或修改模型,且适用于不同规模的MLLM。

📝 摘要(中文)

多模态语言模型(MLLM)越来越多地与视觉工具(例如,深度、光流、对应关系)结合,以增强视觉推理能力。然而,尽管可以访问这些工具生成的视觉线索,MLLM通常无法从中受益。现有方法通常将原始工具输出输入到模型中,但这些密集的像素级表示与LLM的语言原生推理优势不匹配,导致感知薄弱并依赖于语言先验。我们认为,在视觉工具可以提供必要视觉线索的问题中,瓶颈不在于更多的工具调用或更大的MLLM,而在于工具输出的表示方式。我们引入了感知程序(P²),这是一种无需训练、模型无关的方法,可将工具输出重写为紧凑、结构化的语言原生摘要,MLLM可以直接解析和推理。在BLINK中的六个以感知为中心的任务中,P²始终如一地对基础模型和原始工具增强的基线产生很大的改进。以GPT-5 Mini作为基础模型,P²将其在多视图推理上的准确率从41.35%提高到86.47%,在相对深度上的准确率从52.42%提高到81.45%,并在各项任务中平均提高了22%,从而树立了新的最先进水平。即使在较小的MLLM上,例如InternVL3.5-4B和Qwen3VL-4B,我们也可以观察到P²带来15-40%的绝对收益,超过了先前的基于Agent、监督和基于RL的工具使用方法-无需任何训练或模型修改。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在利用视觉工具(如深度估计、光流等)进行视觉推理时,通常直接将工具输出的像素级信息输入模型。这种方式存在的问题是,像素级信息过于密集,与LLM擅长的语言推理方式不匹配,导致模型难以有效提取和利用关键的视觉线索,从而影响视觉推理的准确性。模型容易依赖语言先验知识,而忽略视觉工具提供的有效信息。

核心思路:论文的核心思路是将视觉工具的输出转换为更适合LLM处理的语言原生形式。具体来说,就是将密集的像素级输出提炼成紧凑、结构化的语言描述,即“感知程序”(Perception Programs, P²)。这样,LLM可以直接解析和推理这些语言描述,从而更好地利用视觉工具提供的线索。这种方法的核心在于弥合了视觉工具输出与LLM输入之间的语义鸿沟。

技术框架:P²方法是一个训练自由、模型无关的框架,主要包含以下步骤:1. 使用视觉工具(如深度估计模型)处理输入图像,生成原始的像素级输出。2. 设计特定的“感知程序”,将原始输出转换为结构化的语言描述。这些程序根据任务需求,提取关键的视觉线索,并将其组织成易于理解的语言形式。3. 将生成的语言描述输入MLLM,进行推理和决策。整个流程无需对MLLM进行任何训练或修改。

关键创新:该方法最重要的创新点在于提出了“感知程序”的概念,将视觉工具的输出转换为语言原生形式。这与现有方法直接输入像素级信息的方式有本质区别。P²方法更注重提取和表达关键的视觉线索,而不是简单地将所有信息都传递给模型。这种方法更符合LLM的推理特点,能够更好地发挥LLM的优势。

关键设计:感知程序的设计是该方法的核心。具体设计需要根据不同的任务和视觉工具进行调整。例如,对于相对深度估计任务,感知程序可以提取图像中不同区域的平均深度值,并比较它们的大小关系,然后将这些关系用语言描述出来。关键在于选择合适的视觉线索,并将其以简洁、明确的方式表达出来。没有明确的损失函数或网络结构,因为该方法是训练自由的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,P²方法在BLINK数据集的六个感知任务上取得了显著的性能提升。例如,在GPT-5 Mini模型上,多视图推理的准确率从41.35%提高到86.47%,相对深度估计的准确率从52.42%提高到81.45%,平均提升幅度达到22%。此外,P²方法在较小的MLLM(如InternVL3.5-4B和Qwen3VL-4B)上也取得了15-40%的绝对收益,超过了现有的Agent、监督和强化学习方法。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、智能监控、图像理解等领域。通过将视觉工具与大语言模型相结合,可以提升机器对环境的感知和理解能力,使其能够更好地完成各种复杂的任务。未来,该方法有望成为多模态智能系统的重要组成部分。

📄 摘要(原文)

Multimodal language models (MLLMs) are increasingly paired with vision tools (e.g., depth, flow, correspondence) to enhance visual reasoning. However, despite access to these tool-generated visual cues, MLLMs often fail to benefit from them. Existing approaches typically feed raw tool outputs into the model, but these dense, pixel-level representations are misaligned with the language-native reasoning strengths of LLMs, leading to weak perception and reliance on language priors. We argue that, in problems where vision tools can provide the necessary visual cues, the bottleneck is not more tool calls or larger MLLMs, it is how tool outputs are represented. We introduce Perception Programs (P$^2$), a training-free, model-agnostic method that rewrites tool outputs into compact, structured, language-native summaries that MLLMs can directly parse and reason over. Across six perception-centric tasks in BLINK, P$^2$ consistently yields large improvements over base models and raw tool-augmented baselines. With GPT-5 Mini as the base model, P$^2$ raises its accuracy from 41.35\% to 86.47\% on multi-view reasoning, from 52.42\% to 81.45\% on relative depth, and achieves a 22\% average gain across tasks, setting new state-of-the-art results. Even on smaller MLLMs, e.g., InternVL3.5-4B and Qwen3VL-4B, we observe 15-40\% absolute gains from P$^2$, surpassing prior agentic, supervised, and RL-based tool-use methods-without any training or model modifications.