Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

作者: Bingshuai Liu, Chenyang Lyu, Zijun Min, Zhanyu Wang, Jinsong Su, Longyue Wang

分类: cs.CL

发布日期: 2023-12-04 (更新: 2024-03-03)

备注: Work in progress

💡 一句话要点

提出检索增强的多模态思维链推理方法，提升大语言模型在复杂推理任务上的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 思维链 检索增强 大语言模型 分层抽样

📋 核心要点

多模态推理中，如何为大语言模型选择最优的思维链演示示例是一个挑战。
利用检索机制，根据跨模态和模态内相似性动态选择演示示例，并采用分层抽样提高多样性。
实验表明，该方法显著提升了GPT-4和GPT-4V在ScienceQA和MathVista数据集上的性能。

📝 摘要（中文）

大型语言模型（LLMs）的进步使得思维链（CoT）方法备受关注，因为它能够增强LLMs在复杂推理任务上的能力。此外，CoT方法的重要性也扩展到LLMs在多模态任务中的应用。然而，由于多模态示例固有的复杂性，在多模态推理中为LLMs选择最佳的CoT演示示例仍然缺乏探索。本文提出了一种新方法，通过使用检索机制，基于跨模态和模态内的相似性，动态且自动地选择演示示例来解决这一挑战。此外，我们采用分层抽样方法，根据演示示例的类型将其分类成组，然后分别从不同组中检索示例，以提高演示示例的多样性。通过在ScienceQA和MathVista这两个流行的基准数据集上进行的一系列实验，我们证明了我们的方法显著提高了GPT-4在ScienceQA上的性能6%，在MathVista上的性能12.9%，并提高了GPT-4V在这两个数据集上的性能2.7%，从而大大提高了最先进的LLMs和LMMs在复杂多模态推理任务中的性能。

🔬 方法详解

问题定义：现有的大语言模型在多模态推理任务中，尤其是需要复杂推理的场景下，性能受到限制。一个关键问题是如何有效地选择合适的思维链（CoT）演示示例。由于多模态数据的复杂性，人工选择耗时且难以覆盖所有情况，而现有方法在自动选择方面仍有不足，无法充分利用跨模态信息和保证示例的多样性。

核心思路：本文的核心思路是利用检索机制，从大量的候选示例中自动选择与当前问题最相关的演示示例。通过计算跨模态和模态内的相似度，可以找到与问题在语义和视觉上都相似的示例。此外，为了保证演示示例的多样性，采用了分层抽样策略，从不同类型的示例中进行选择。

技术框架：整体框架包含以下几个主要阶段：1) 示例库构建：构建包含大量多模态示例的示例库，每个示例都包含问题、图像和推理过程。2) 相似度计算：计算当前问题与示例库中每个示例的跨模态和模态内相似度。跨模态相似度衡量问题文本和图像之间的关联性，模态内相似度衡量问题文本之间的相似性和图像之间的相似性。3) 分层抽样：根据示例的类型（例如，不同的学科或解题策略）将示例库分成不同的组，然后从每个组中抽取一定数量的示例。4) CoT推理：将选择的演示示例与当前问题一起输入到大语言模型中，进行思维链推理。

关键创新：该方法最重要的创新点在于结合了检索机制和分层抽样策略，实现了自动、动态和多样化的演示示例选择。与传统的固定示例或随机示例选择方法相比，该方法能够更好地适应不同的问题，并提供更有效的推理指导。

关键设计：在相似度计算方面，可以使用预训练的跨模态模型（如CLIP）来提取文本和图像的特征，然后计算特征向量之间的余弦相似度。在分层抽样方面，可以根据示例的元数据（如学科、难度等）进行分组，并根据一定的比例从每个组中抽取示例。具体参数设置和损失函数的使用取决于所使用的大语言模型和数据集，需要根据实际情况进行调整。

📊 实验亮点

实验结果表明，该方法在ScienceQA数据集上将GPT-4的性能提高了6%，在MathVista数据集上提高了12.9%。同时，GPT-4V在这两个数据集上的性能也分别提高了2.7%。这些结果表明，该方法能够显著提升大语言模型在复杂多模态推理任务上的性能，优于现有的方法。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理的多模态任务中，例如智能教育、医疗诊断、金融分析等领域。通过提供更准确和可靠的推理结果，可以辅助专业人员进行决策，提高工作效率，并为用户提供更智能化的服务。未来，该方法有望进一步扩展到更多模态的数据，例如视频和语音，从而实现更全面的多模态理解和推理。

📄 摘要（原文）

The advancement of Large Language Models (LLMs) has brought substantial attention to the Chain of Thought (CoT) approach, primarily due to its ability to enhance the capability of LLMs on complex reasoning tasks. Moreover, the significance of CoT approaches extends to the application of LLMs for multi-modal tasks. However, the selection of optimal CoT demonstration examples in multi-modal reasoning remains less explored for LLMs due to the inherent complexity of multi-modal examples. In this paper, we introduce a novel approach that addresses this challenge by using retrieval mechanisms to dynamically and automatically select demonstration examples based on cross-modal and intra-modal similarities. Furthermore, we employ a Stratified Sampling method of categorising demonstration examples into groups based on their types and then retrieving examples from different groups respectively to promote the diversity of demonstration examples. Through a series of experiments on two popular benchmark datasets: ScienceQA and MathVista, we demonstrate that our approach significantly improves the performance of GPT-4 by 6% on ScienceQA and 12.9% on MathVista, and enhances the performance of GPT-4V on two datasets by 2.7%, substantially improving the performance of the most advanced LLMs and LMMs for complex multi-modal reasoning tasks.

Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册