Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution
作者: Susanna Cifani, Mario Luca Bernardi, Marta Cimitile
分类: cs.AI, cs.CL
发布日期: 2026-05-27
备注: Copyright 2026 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses. Accepted for publication at the 2026 IEEE International Conference on Evolving and Adaptive Intelligent Systems (EAIS 2026)
💡 一句话要点
提出自适应多模态Agent框架,用于自动工作流执行,提升非稳态场景下的可靠性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动工作流执行 多模态Agent 拓扑知识库 自适应RAG 闭环协作验证 任务分解 非稳态环境
📋 核心要点
- 现有方法难以让Agent从结构化数据过渡到通用环境感知,无法有效处理复杂工作流。
- 提出一种多模态多Agent框架,通过离线构建拓扑知识库和在线自适应RAG导航实现自动工作流执行。
- 实验表明,该框架在真实环境中即使使用有限的训练数据也能保持高可靠性和语义感知能力。
📝 摘要(中文)
现代信息系统需要能够驾驭复杂工作流的自主Agent,但现有方法在结构化元数据解析到通用环境感知的过渡上存在困难。虽然MLLM的集成使Agent能够直接与GUI交互,但现有方法通常将任务序列视为离散的线性片段,这阻碍了Agent捕获潜在的转换拓扑,限制了其在新场景或非稳态场景中的有效性。为了解决这个问题,我们提出了一种新颖的多模态多Agent框架,该框架通过一个独特的两阶段流程实现自动工作流执行。首先,在离线发现阶段,该架构自适应地从片段化的执行日志中构建拓扑知识库。在推理过程中,Agent利用基于此固定、预先建立的图的自适应检索增强生成(RAG),并结合闭环协作验证协议来动态地自我纠正和导航。这种基于图的方法有助于实现卓越的任务分解和自适应导航性能。我们在真实环境中验证了我们的框架,证明了即使在有限的训练数据下,它也能保持高可靠性和语义感知能力。
🔬 方法详解
问题定义:现有方法在自动工作流执行中,将任务序列视为离散的线性片段,忽略了任务之间的拓扑关系。这导致Agent难以适应新的或非稳态场景,泛化能力不足。现有方法难以从结构化元数据解析过渡到通用环境感知,无法有效利用环境信息。
核心思路:核心思路是构建一个拓扑知识库,用于表示工作流中任务之间的转换关系。Agent通过在这个知识库上进行自适应检索增强生成(RAG),结合闭环协作验证,实现动态导航和自我纠正。这种方法允许Agent捕获任务之间的依赖关系,从而提高其在新场景中的适应性。
技术框架:该框架包含两个主要阶段:离线发现阶段和在线推理阶段。在离线发现阶段,系统从片段化的执行日志中自适应地构建拓扑知识库,该知识库以图的形式表示任务之间的转换关系。在线推理阶段,Agent利用自适应RAG从拓扑知识库中检索相关信息,并结合闭环协作验证协议进行动态导航。多个Agent协同工作,共同完成工作流。
关键创新:最重要的创新点在于将工作流执行问题建模为图上的导航问题,并利用自适应RAG和闭环协作验证来提高Agent的适应性和可靠性。与现有方法将任务序列视为线性片段不同,该方法能够捕获任务之间的依赖关系,从而更好地适应新场景。自适应RAG能够根据当前状态动态地选择相关信息,提高检索效率。
关键设计:拓扑知识库的构建方式是关键。具体如何从执行日志中提取任务和任务之间的转换关系,以及如何表示这些关系,是需要仔细设计的。自适应RAG的具体实现,包括检索策略和增强生成模型,也需要根据具体应用场景进行调整。闭环协作验证协议的设计,需要考虑Agent之间的通信方式和验证机制。
🖼️ 关键图片
📊 实验亮点
该框架在真实环境中进行了验证,证明了其在有限训练数据下也能保持高可靠性和语义感知能力。具体性能数据未知,但摘要强调了其在实际应用中的有效性。与现有方法相比,该框架能够更好地适应新场景,并具有更强的鲁棒性。
🎯 应用场景
该研究成果可应用于各种需要自动工作流执行的领域,例如自动化测试、业务流程自动化、智能客服等。通过提高Agent的适应性和可靠性,可以减少人工干预,提高工作效率,降低运营成本。未来,该框架可以扩展到更复杂的环境和任务,例如涉及多模态输入和复杂决策的工作流。
📄 摘要(原文)
Modern information systems require autonomous agents capable of navigating complex workflows, yet current methodologies often struggle with the transition from structured metadata parsing to general environmental perception. While the integration of MLLMs has enabled agents to interact directly with GUIs, existing approaches typically treat task sequences as discrete, linear episodes. This fragmentation prevents agents from capturing the underlying transition topology, limiting their effectiveness in novel or non-stationary scenarios. To address this, we propose a novel multimodal multi-agent framework that achieves automatic workflow execution through a distinct two-phase pipeline. First, during an offline discovery phase, the architecture adaptively constructs a topological knowledge base from fragmented execution logs. During inference, agents leverage Adaptive Retrieval-Augmented Generation (RAG) over this fixed, pre-established graph, coupled with a closed-loop collaborative verification protocol to dynamically self-correct and navigate. This graph-based approach facilitates superior task decomposition and adaptive navigation performance. We validate our framework in a real-world context, demonstrating its ability to maintain high reliability and semantic awareness even with limited training data.