MMSkills: Towards Multimodal Skills for General Visual Agents

📄 arXiv: 2605.13527v1 📥 PDF

作者: Kangning Zhang, Shuai Shao, Qingyao Li, Jianghao Lin, Lingyue Fu, Shijian Wang, Wenxiang Jiao, Yuan Lu, Weiwen Liu, Weinan Zhang, Yong Yu

分类: cs.AI

发布日期: 2026-05-13

备注: 25 pages, 8 figures, 8 tables. Project page: https://zkangning.github.io/towards_mmskills


💡 一句话要点

MMSkills:面向通用视觉Agent的多模态技能框架,提升决策能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态技能 视觉Agent 程序知识 技能复用 状态识别

📋 核心要点

  1. 现有技能包主要以文本或代码形式编码,忽略了视觉Agent中多模态程序知识的重要性。
  2. MMSkills框架通过结合文本过程、状态卡和多视图关键帧,实现了可复用的多模态技能表示。
  3. 实验表明,MMSkills能有效提升GUI和游戏环境中视觉Agent的性能,验证了其有效性。

📝 摘要(中文)

可复用技能已成为提升Agent能力的关键。然而,现有技能包主要以文本提示、可执行代码或学习例程的形式编码可复用行为。对于视觉Agent,程序知识本质上是多模态的:复用不仅取决于执行什么操作,还取决于识别相关状态、解释视觉证据以及决定下一步操作。本文将此需求形式化为多模态程序知识,并解决了三个实际挑战:(I)多模态技能包应包含什么;(II)此类包可以从何处获取;(III)Agent如何在推理时查阅多模态证据,而无需过多的图像上下文或过度依赖参考截图。为此,本文提出了MMSkills,一个用于表示、生成和使用可复用多模态程序以进行运行时视觉决策的框架。每个MMSkill都是一个紧凑的、状态条件化的包,它将文本过程与运行时状态卡和多视图关键帧相结合。为了构建这些包,本文开发了一个Agentic轨迹到技能生成器,该生成器通过工作流分组、过程归纳、视觉 grounding 和元技能引导的审计将公共非评估轨迹转换为可复用的多模态技能。为了使用它们,本文引入了一个分支加载的多模态技能Agent:在临时分支中检查选定的状态卡和关键帧,与实时环境对齐,并提炼成对主Agent的结构化指导。在GUI和基于游戏的视觉Agent基准测试中进行的实验表明,MMSkills始终如一地改进了前沿和较小的多模态Agent,表明外部多模态程序知识补充了模型内部的先验知识。

🔬 方法详解

问题定义:现有视觉Agent的技能复用方法主要依赖于文本提示或代码,缺乏对视觉环境的感知和利用,导致在复杂任务中泛化能力不足。痛点在于无法有效利用视觉信息进行状态识别、进度评估和下一步决策。

核心思路:MMSkills的核心在于将程序知识表示为多模态形式,即文本过程、运行时状态卡和多视图关键帧的结合。通过这种方式,Agent可以利用视觉信息来理解任务状态,并根据状态选择合适的技能。这样设计的目的是为了弥补现有方法在视觉感知方面的不足,提高Agent的泛化能力和鲁棒性。

技术框架:MMSkills框架包含两个主要部分:技能生成器和技能Agent。技能生成器负责从公共轨迹中提取并构建可复用的多模态技能包,包括工作流分组、过程归纳、视觉 grounding 和元技能引导的审计。技能Agent则负责在运行时选择合适的技能,并通过分支加载的方式将技能与当前环境对齐,最终指导主Agent的决策。

关键创新:MMSkills的关键创新在于其多模态技能表示方法,它将文本过程与视觉信息(状态卡和关键帧)相结合,使得Agent能够更好地理解任务状态并做出相应的决策。此外,技能生成器能够自动从公共轨迹中提取技能,降低了人工标注的成本。

关键设计:技能生成器中的工作流分组算法用于将轨迹分割成有意义的技能单元。过程归纳算法用于从轨迹中提取文本过程描述。视觉 grounding 算法用于将文本过程与视觉信息(状态卡和关键帧)对齐。技能Agent中的分支加载机制用于在不干扰主Agent的情况下,评估技能的适用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMSkills框架能够显著提升视觉Agent在GUI和游戏环境中的性能。例如,在GUI任务中,MMSkills能够将Agent的成功率提高10%-20%。此外,MMSkills还能够改善小型多模态Agent的性能,表明其具有良好的可扩展性。

🎯 应用场景

MMSkills框架可应用于各种需要视觉感知的Agent任务,例如机器人导航、游戏AI、GUI自动化等。通过利用多模态技能,Agent可以更好地理解环境,做出更明智的决策,从而提高任务完成的效率和成功率。未来,该框架有望扩展到更复杂的任务和环境,并与其他Agent技术相结合,实现更强大的通用视觉Agent。

📄 摘要(原文)

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.