Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration
作者: Yijia Shao, Vinay Samuel, Yucheng Jiang, John Yang, Diyi Yang
分类: cs.AI, cs.CL, cs.HC
发布日期: 2024-12-20 (更新: 2025-12-06)
备注: Preprint
💡 一句话要点
提出Collaborative Gym框架,用于人机协作Agent的开发与评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 强化学习 自然语言处理 用户模拟 评估框架
📋 核心要点
- 现有AI Agent在复杂任务中难以兼顾人类偏好和领域知识,需要人机协作。
- Co-Gym框架通过灵活的交互模式,支持Agent与人类的双向沟通和协同工作。
- 实验表明,人机协作Agent在多个任务中显著优于自主Agent,但仍存在通信和情境感知问题。
📝 摘要(中文)
本文提出了Collaborative Gym (Co-Gym),一个开放框架,旨在促进人机协作Agent的开发和评估。该框架支持Agent与人类进行双向通信,并与任务环境交互。Co-Gym通过灵活的非回合制交互模式,实现了新的任务环境和人机协同。同时,框架提供了一套评估体系,用于评估协作结果和过程。Co-Gym提供模拟环境(带有可靠的用户模拟器)和真实环境(带有交互式Web应用)。在旅行计划、撰写相关工作章节和分析表格数据三个代表性任务上的基准实验表明,人机协作的优势明显:最佳协作Agent在任务性能上始终优于完全自主的Agent。真实用户评估显示,旅行计划、表格分析和相关工作任务的胜率分别达到86%、74%和66%。然而,评估也揭示了当前语言模型和Agent的局限性,在真实环境中,分别有65%和40%的案例观察到通信和情境感知失败。Co-Gym以MIT许可发布,支持添加新的任务环境,并可用于开发协作Agent应用,其评估套件支持协作Agent的评估和改进。
🔬 方法详解
问题定义:论文旨在解决人机协作Agent开发和评估的难题。现有方法缺乏统一的框架,难以进行有效的协作策略研究和性能评估。此外,真实用户参与的评估成本高昂,而用户模拟器往往不够可靠。
核心思路:论文的核心思路是构建一个灵活、可扩展的协作环境,允许Agent与人类进行自然交互,并提供全面的评估工具。通过模拟环境和真实环境的结合,降低评估成本,提高研究效率。框架的设计目标是支持多种任务类型和交互模式,并鼓励社区贡献新的环境和Agent。
技术框架:Co-Gym框架包含以下几个主要组成部分:1) 任务环境接口:定义了Agent和环境之间的交互方式,支持多种任务类型。2) 人机交互接口:允许Agent和人类通过自然语言进行双向通信,采用非回合制交互模式。3) 用户模拟器:提供可靠的用户行为模型,用于在模拟环境中进行Agent训练和评估。4) 评估套件:包含多种评估指标,用于评估协作结果和过程,包括任务完成度、用户满意度、沟通效率等。5) Web应用:提供真实的人机交互界面,用于收集真实用户数据和评估Agent性能。
关键创新:Co-Gym的关键创新在于其灵活的非回合制交互模式和全面的评估体系。传统的交互模式往往是回合制的,限制了Agent和人类之间的自然沟通。Co-Gym允许Agent和人类随时发起对话,从而实现更流畅的协作。此外,Co-Gym的评估套件不仅关注任务完成度,还关注协作过程中的沟通效率和用户体验,从而更全面地评估Agent的性能。
关键设计:Co-Gym采用模块化设计,方便添加新的任务环境和Agent。用户模拟器基于真实用户数据训练,能够模拟用户的行为和偏好。评估套件包含多种评估指标,可以根据具体任务进行定制。Web应用采用React框架开发,提供友好的用户界面。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在旅行计划、撰写相关工作章节和分析表格数据三个任务中,人机协作Agent的性能显著优于完全自主的Agent。具体而言,在真实用户评估中,协作Agent在旅行计划任务中胜率达到86%,在表格分析任务中胜率达到74%,在相关工作撰写任务中胜率达到66%。这些结果验证了人机协作的有效性,并表明Co-Gym框架能够有效地评估协作Agent的性能。
🎯 应用场景
Co-Gym框架可应用于各种需要人机协作的场景,例如智能助手、自动化报告生成、数据分析等。通过该框架,研究人员可以更方便地开发和评估协作Agent,从而提高工作效率和用户体验。未来,Co-Gym有望成为人机协作领域的重要基础设施,推动相关技术的发展。
📄 摘要(原文)
While the advancement of large language models has spurred the development of AI agents to automate tasks, numerous use cases inherently require agents to collaborate with humans due to humans' latent preferences, domain expertise, or the need for control. To facilitate the study of human-agent collaboration, we introduce Collaborative Gym (Co-Gym), an open framework for developing and evaluating collaborative agents that engage in bidirectional communication with humans while interacting with task environments. We describe how the framework enables the implementation of new task environments and coordination between humans and agents through a flexible, non-turn-taking interaction paradigm, along with an evaluation suite that assesses both collaboration outcomes and processes. Our framework provides both a simulated condition with a reliable user simulator and a real-world condition with an interactive web application. Initial benchmark experiments across three representative tasks -- creating travel plans, writing related work sections, and analyzing tabular data -- demonstrate the benefits of human-agent collaboration: The best-performing collaborative agents consistently outperform their fully autonomous counterparts in task performance, achieving win rates of 86% in Travel Planning, 74% in Tabular Analysis, and 66% in Related Work when evaluated by real users. Despite these improvements, our evaluation reveals persistent limitations in current language models and agents, with communication and situational awareness failures observed in 65% and 40% of cases in the real condition, respectively. Released under the permissive MIT license, Co-Gym supports the addition of new task environments and can be used to develop collaborative agent applications, while its evaluation suite enables assessment and improvement of collaborative agents.