Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering

📄 arXiv: 2412.18351v2 📥 PDF

作者: Zhongjian Hu, Peng Yang, Bing Li, Zhenqi Wang

分类: cs.CL, cs.AI

发布日期: 2024-12-24 (更新: 2025-08-07)

备注: We would like to withdraw this submission due to ongoing internal review and coordination among the author team. Upon the supervisor's recommendation, we have decided to delay public dissemination until the manuscript undergoes further refinement and aligns with our intended academic trajectory


💡 一句话要点

提出基于大语言模型的多智能体投票框架,提升知识型视觉问答性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉问答 知识型VQA 大语言模型 多智能体 团队协作

📋 核心要点

  1. 现有知识型VQA方法难以自主利用外部工具,且缺乏有效的团队协作机制。
  2. 提出多智能体投票框架,模拟人类团队协作,每个智能体具备不同层级和工具使用权限。
  3. 实验结果表明,该方法在OK-VQA和A-OKVQA数据集上均取得了显著的性能提升。

📝 摘要(中文)

大语言模型(LLMs)在知识型视觉问答(VQA)领域取得了显著成果。然而,现有方法仍面临挑战:无法自主使用外部工具,且缺乏团队协作能力。受人类解决问题方式的启发,我们提出了多智能体投票框架。该框架设计了三个基于LLM的智能体,模拟团队中不同层级的成员,并根据层级分配可用工具。每个智能体提供相应的答案,最后通过投票机制得到最终答案。在OK-VQA和A-OKVQA数据集上的实验表明,我们的方法优于其他基线方法,分别提升了2.2和1.0。

🔬 方法详解

问题定义:论文旨在解决知识型视觉问答任务中,现有方法无法有效利用外部知识和缺乏协作的问题。现有方法通常依赖单一模型进行推理,难以模拟人类利用工具和团队协作解决复杂问题的过程,导致性能瓶颈。

核心思路:论文的核心思路是模拟人类团队协作解决问题的模式,构建多个基于大语言模型的智能体,每个智能体扮演团队中不同角色,并赋予不同的工具使用权限。通过智能体之间的协作和投票,综合多个角度的答案,从而提高最终答案的准确性。

技术框架:整体框架包含三个主要模块:问题理解模块、多智能体协作模块和答案投票模块。问题理解模块负责解析输入的问题和图像信息。多智能体协作模块包含三个基于LLM的智能体,分别模拟不同层级的员工,并分配不同的工具(如搜索引擎)。每个智能体根据自身层级和工具,独立生成答案。答案投票模块则对所有智能体提供的答案进行投票,选择得票最高的答案作为最终答案。

关键创新:该方法最重要的创新点在于引入了多智能体协作机制,模拟人类团队解决问题的过程。与现有方法相比,该方法能够更有效地利用外部知识,并通过智能体之间的协作,提高答案的准确性和鲁棒性。此外,根据智能体层级分配工具的设计,也更符合实际应用场景。

关键设计:三个智能体的角色设计是关键。例如,可以设计一个“初级员工”智能体,只能进行简单的图像理解和问题回答;一个“中级员工”智能体,可以使用搜索引擎查询相关知识;一个“高级员工”智能体,可以综合多个信息源进行推理和判断。投票机制可以采用简单的多数投票,也可以根据智能体的层级赋予不同的权重。

📊 实验亮点

实验结果表明,该方法在OK-VQA和A-OKVQA数据集上分别取得了2.2和1.0的性能提升,显著优于其他基线方法。这表明多智能体协作框架能够有效提高知识型视觉问答的准确性和鲁棒性。此外,实验还验证了不同智能体角色和工具分配策略对性能的影响。

🎯 应用场景

该研究成果可应用于智能客服、教育辅助、智能家居等领域。例如,在智能客服中,可以利用多智能体框架,更准确地回答用户提出的复杂问题。在教育辅助中,可以帮助学生理解图像内容,并提供相关的知识解释。在智能家居中,可以根据用户的提问,控制智能设备并提供相关信息。

📄 摘要(原文)

Large Language Models (LLMs) have achieved impressive results in knowledge-based Visual Question Answering (VQA). However existing methods still have challenges: the inability to use external tools autonomously, and the inability to work in teams. Humans tend to know whether they need to use external tools when they encounter a new question, e.g., they tend to be able to give a direct answer to a familiar question, whereas they tend to use tools such as search engines when they encounter an unfamiliar question. In addition, humans also tend to collaborate and discuss with others to get better answers. Inspired by this, we propose the multi-agent voting framework. We design three LLM-based agents that simulate different levels of staff in a team, and assign the available tools according to the levels. Each agent provides the corresponding answer, and finally all the answers provided by the agents are voted to get the final answer. Experiments on OK-VQA and A-OKVQA show that our approach outperforms other baselines by 2.2 and 1.0, respectively.