Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
作者: Sachit Menon, Richard Zemel, Carl Vondrick
分类: cs.CL, cs.AI, cs.CV
发布日期: 2024-06-20
备注: Project website: whiteboard.cs.columbia.edu/
💡 一句话要点
提出Whiteboard-of-Thought提示方法,提升多模态大语言模型在视觉推理任务上的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉推理 大语言模型 提示学习 空间推理 图像生成 代码生成
📋 核心要点
- 现有方法难以将大型语言模型在算术和符号推理方面的能力扩展到视觉推理任务中。
- Whiteboard-of-Thought提示方法通过让模型绘制推理步骤图像,并将其反馈给模型,从而解锁多模态大语言模型的视觉推理能力。
- 实验表明,该方法在多个视觉推理任务上取得了显著的性能提升,甚至在GPT-4o失效的情况下也能达到较高的准确率。
📝 摘要(中文)
本文提出了一种名为“Whiteboard-of-Thought”的提示方法,旨在提升多模态大语言模型在视觉推理方面的能力。该方法为模型提供了一个虚拟的“白板”,允许模型以图像的形式绘制推理步骤,并将这些图像反馈给模型以进行进一步处理。该方法无需任何演示或专门的模块,而是利用模型现有的代码编写能力,例如使用Matplotlib和Turtle等库。实验结果表明,这种简单的方法在四个涉及视觉和空间推理的自然语言任务上取得了最先进的结果。在某些情况下,GPT-4o在使用Chain-of-Thought时表现极差,甚至准确率达到0%,而Whiteboard-of-Thought能够将准确率提升至92%。本文还详细探讨了该技术的成功之处以及误差来源。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在处理需要视觉和空间推理的自然语言任务时表现不佳的问题。现有方法,如Chain-of-Thought,在算术和符号推理上表现良好,但无法有效应用于视觉推理,即使经过大量多模态预训练的模型也难以胜任。现有方法的痛点在于缺乏有效的机制来利用视觉信息进行推理。
核心思路:论文的核心思路是让模型能够像人类一样,通过绘制草图或图像来辅助视觉推理。具体来说,就是为模型提供一个虚拟的“白板”,让模型将推理过程中的关键步骤以图像的形式表达出来。这些图像随后被反馈给模型,作为进一步推理的依据。这种方式模拟了人类在解决视觉问题时,通过视觉辅助进行思考的过程。
技术框架:Whiteboard-of-Thought prompting 的整体流程如下:1. 接收包含视觉推理需求的自然语言问题。2. 模型生成代码(例如,使用Matplotlib或Turtle库)来绘制与推理步骤相关的图像。3. 生成的图像被反馈给模型。4. 模型基于图像进行进一步推理,并最终生成答案。整个过程可以迭代多次,逐步细化推理过程。
关键创新:该方法最重要的创新点在于将视觉表达融入到大语言模型的推理过程中。与传统的Chain-of-Thought方法不同,Whiteboard-of-Thought不仅利用文本信息,还利用视觉信息进行推理。这种跨模态的推理方式更符合人类的认知过程,能够有效提升模型在视觉推理任务上的性能。此外,该方法无需额外的训练数据或专门设计的模块,而是直接利用了模型现有的代码生成能力。
关键设计:该方法的关键设计在于如何引导模型生成有意义的图像。论文中并没有明确指定具体的图像生成方式,而是依赖于模型的代码生成能力。通过合适的提示语,可以引导模型生成与推理步骤相关的图像。例如,在解决空间推理问题时,可以引导模型绘制几何图形;在解决视觉识别问题时,可以引导模型绘制目标对象的轮廓。具体的参数设置和网络结构取决于所使用的多模态大语言模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Whiteboard-of-Thought prompting 在四个视觉推理任务上取得了最先进的结果。在某些情况下,GPT-4o在使用Chain-of-Thought时准确率达到0%,而Whiteboard-of-Thought能够将准确率提升至92%。这表明该方法能够显著提升多模态大语言模型在视觉推理方面的性能。
🎯 应用场景
该研究成果可广泛应用于需要视觉推理的领域,例如机器人导航、图像理解、视觉问答、以及辅助设计等。通过提升模型在视觉推理方面的能力,可以使AI系统更好地理解和处理现实世界中的视觉信息,从而实现更智能化的应用。
📄 摘要(原文)
When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves $0\%$ accuracy, while whiteboard-of-thought enables up to $92\%$ accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.