A Survey on Agentic Multimodal Large Language Models
作者: Huanjin Yao, Ruifei Zhang, Jiaxing Huang, Jingyi Zhang, Yibo Wang, Bo Fang, Ruolin Zhu, Yongcheng Jing, Shunyu Liu, Guanbin Li, Dacheng Tao
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-10-13
🔗 代码/项目: GITHUB
💡 一句话要点
综述Agentic多模态大语言模型,探索其在动态环境中的智能涌现与应用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic MLLM 多模态大语言模型 自主Agent 环境交互 工具调用 长期规划 人工智能 综述
📋 核心要点
- 传统AI Agent在静态环境中表现被动,缺乏通用性和自主性,难以应对复杂动态场景。
- Agentic MLLM通过内部智能、外部工具调用和环境交互,实现长期规划、问题解决和目标导向行为。
- 论文构建了Agentic MLLM的概念框架,并整理了开源资源,为该领域的研究提供支持。
📝 摘要(中文)
随着革命性的自主Agentic系统兴起,研究领域正经历从传统静态、被动和领域特定的AI Agent向更动态、主动和通用Agentic AI的重大转变。鉴于对Agentic AI日益增长的兴趣及其迈向AGI的潜力,本研究对Agentic多模态大语言模型(Agentic MLLM)进行了全面综述。本文探讨了Agentic MLLM的新兴范式,阐述了其概念基础,并区分了其与传统基于MLLM的Agent的区别。我们建立了一个概念框架,该框架沿着三个基本维度组织Agentic MLLM:(i)Agentic内部智能功能,作为系统的指挥者,通过推理、反思和记忆实现准确的长期规划;(ii)Agentic外部工具调用,模型主动使用各种外部工具来扩展其超出其内在知识的问题解决能力;(iii)Agentic环境交互,进一步将模型置于虚拟或物理环境中,使其能够在动态的真实场景中采取行动、调整策略并维持目标导向的行为。为了进一步加速该领域的研究,我们整理了用于开发Agentic MLLM的开源训练框架、训练和评估数据集。最后,我们回顾了Agentic MLLM的下游应用,并概述了这个快速发展领域的未来研究方向。为了持续跟踪这一快速发展领域的进展,我们还将积极更新一个公共存储库。
🔬 方法详解
问题定义:现有基于MLLM的Agent通常是静态、被动的,并且针对特定领域设计,难以适应动态变化的环境,缺乏自主性和通用性。它们在长期规划、复杂问题解决和与环境交互方面存在局限性。因此,需要研究更智能、更自主的Agentic MLLM,使其能够像人类一样在复杂环境中行动和学习。
核心思路:论文的核心思路是将大语言模型与Agentic能力相结合,使其具备推理、反思、记忆、工具调用和环境交互等能力。通过这些能力的协同作用,Agentic MLLM能够自主地制定长期计划、解决复杂问题,并与环境进行交互,从而实现更高级别的智能。
技术框架:Agentic MLLM的框架包含三个主要组成部分:(1) Agentic内部智能,负责推理、反思和记忆,实现长期规划;(2) Agentic外部工具调用,允许模型使用外部工具扩展其能力;(3) Agentic环境交互,使模型能够在虚拟或物理环境中采取行动并学习。这三个部分相互协作,共同驱动Agentic MLLM的智能行为。
关键创新:该综述的关键创新在于提出了一个Agentic MLLM的概念框架,并将其分解为三个核心维度:内部智能、外部工具调用和环境交互。这个框架为理解和研究Agentic MLLM提供了一个清晰的结构,并有助于推动该领域的发展。与传统的MLLM-based Agent相比,Agentic MLLM更强调自主性、通用性和适应性。
关键设计:论文主要关注Agentic MLLM的整体框架和概念,并未涉及具体的参数设置、损失函数或网络结构等技术细节。然而,综述中提到的各个组成部分,例如推理模块、记忆模块、工具调用接口和环境交互机制,都需要进行精心的设计和优化,以实现最佳的性能。
🖼️ 关键图片
📊 实验亮点
该综述整理了Agentic MLLM相关的开源训练框架、训练和评估数据集,为研究人员提供了宝贵的资源。此外,论文还回顾了Agentic MLLM的下游应用,并概述了未来研究方向,为该领域的进一步发展指明了方向。
🎯 应用场景
Agentic MLLM在机器人、自动驾驶、智能家居、虚拟助手等领域具有广泛的应用前景。它们能够自主地完成复杂任务,提高工作效率,改善用户体验,并为实现通用人工智能奠定基础。未来,Agentic MLLM有望在医疗、教育、科研等领域发挥更大的作用。
📄 摘要(原文)
With the recent emergence of revolutionary autonomous agentic systems, research community is witnessing a significant shift from traditional static, passive, and domain-specific AI agents toward more dynamic, proactive, and generalizable agentic AI. Motivated by the growing interest in agentic AI and its potential trajectory toward AGI, we present a comprehensive survey on Agentic Multimodal Large Language Models (Agentic MLLMs). In this survey, we explore the emerging paradigm of agentic MLLMs, delineating their conceptual foundations and distinguishing characteristics from conventional MLLM-based agents. We establish a conceptual framework that organizes agentic MLLMs along three fundamental dimensions: (i) Agentic internal intelligence functions as the system's commander, enabling accurate long-horizon planning through reasoning, reflection, and memory; (ii) Agentic external tool invocation, whereby models proactively use various external tools to extend their problem-solving capabilities beyond their intrinsic knowledge; and (iii) Agentic environment interaction further situates models within virtual or physical environments, allowing them to take actions, adapt strategies, and sustain goal-directed behavior in dynamic real-world scenarios. To further accelerate research in this area for the community, we compile open-source training frameworks, training and evaluation datasets for developing agentic MLLMs. Finally, we review the downstream applications of agentic MLLMs and outline future research directions for this rapidly evolving field. To continuously track developments in this rapidly evolving field, we will also actively update a public repository at https://github.com/HJYao00/Awesome-Agentic-MLLMs.