OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

📄 arXiv: 2601.07779v1 📥 PDF

作者: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding

分类: cs.MA, cs.AI, cs.CL, cs.CV, cs.HC

发布日期: 2026-01-12

备注: 31 pages, 11 figures, 12 tables


💡 一句话要点

OS-Symphony:用于提升计算机使用Agent鲁棒性和泛化性的整体框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 计算机使用Agent 长时程任务 视觉上下文 鲁棒性 泛化性 反射记忆 多模态搜索

📋 核心要点

  1. 现有计算机使用Agent在长时程任务中鲁棒性不足,且难以泛化到新领域,主要原因是缺乏对历史视觉信息的有效管理和利用。
  2. OS-Symphony框架通过引入反射记忆Agent和多功能工具Agent,分别解决长时程任务中的视觉上下文丢失和新场景下的教程保真度问题。
  3. 实验结果表明,OS-Symphony在多个在线基准测试中取得了显著的性能提升,尤其在OSWorld上达到了65.84%的SOTA水平。

📝 摘要(中文)

现有的计算机使用Agent(CUAs)框架在长时程工作流的鲁棒性和新领域的泛化性方面存在不足。这些局限性源于对历史视觉上下文缺乏细粒度的控制,以及缺少视觉感知的教程检索。为了弥合这些差距,我们提出了OS-Symphony,一个整体框架,包含一个协调器,用于协调两个关键创新以实现鲁棒的自动化:(1)一个反射记忆Agent,它利用里程碑驱动的长期记忆来实现轨迹级别的自我纠正,有效地减轻了长时程任务中的视觉上下文丢失;(2)多功能工具Agent,其特点是多模态搜索器,它采用SeeAct范式来导航基于浏览器的沙箱,以合成实时的、视觉对齐的教程,从而解决在未见场景中的保真度问题。实验结果表明,OS-Symphony在不同的模型规模上提供了显著的性能提升,在三个在线基准测试中建立了新的最先进的结果,特别是在OSWorld上实现了65.84%的性能。

🔬 方法详解

问题定义:现有计算机使用Agent在处理复杂、长时程任务时,容易因为视觉上下文的丢失而导致决策错误,并且难以适应新的、未见过的操作环境。现有的方法通常依赖于有限的上下文窗口或简单的历史记录,无法有效地进行自我纠正和知识迁移。

核心思路:OS-Symphony的核心思路是将计算机使用Agent分解为两个关键部分:一个负责长期记忆和自我反思的反射记忆Agent,以及一个能够在新环境中学习和适应的多功能工具Agent。通过协调这两个Agent,OS-Symphony能够更好地处理长时程任务和新环境。

技术框架:OS-Symphony框架包含一个协调器(Orchestrator),它负责协调反射记忆Agent和多功能工具Agent。反射记忆Agent利用里程碑驱动的长期记忆来存储和检索关键的视觉上下文信息,并在必要时进行自我纠正。多功能工具Agent则通过一个多模态搜索器,采用SeeAct范式,在浏览器沙箱中搜索和合成与当前任务相关的教程。

关键创新:OS-Symphony的关键创新在于其整体性的框架设计,以及反射记忆Agent和多功能工具Agent的协同工作。反射记忆Agent通过里程碑驱动的长期记忆,实现了轨迹级别的自我纠正,有效地解决了长时程任务中的视觉上下文丢失问题。多功能工具Agent则通过SeeAct范式,实现了对新环境的快速适应和学习。

关键设计:反射记忆Agent的关键设计包括里程碑的选择策略和记忆的存储与检索机制。里程碑的选择策略旨在选择能够代表任务进展的关键状态。多功能工具Agent的关键设计包括多模态搜索器的搜索策略和教程的合成方法。具体参数设置和网络结构等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OS-Symphony在三个在线基准测试中取得了显著的性能提升,尤其是在OSWorld上达到了65.84%的SOTA水平。实验结果表明,OS-Symphony在不同的模型规模上都表现出优越的性能,证明了其框架的有效性和可扩展性。相较于之前的SOTA模型,性能提升显著(具体提升幅度未知)。

🎯 应用场景

OS-Symphony框架具有广泛的应用前景,可以应用于自动化办公、智能客服、远程协助等领域。通过提升计算机使用Agent的鲁棒性和泛化性,可以实现更高效、更智能的人机协作,从而提高生产效率和服务质量。未来,该框架还可以扩展到其他领域,如机器人控制、智能家居等。

📄 摘要(原文)

While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.