Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task

作者: Shao Zhang, Xihuai Wang, Wenhao Zhang, Yongshan Chen, Landi Gao, Dakuo Wang, Weinan Zhang, Xinbing Wang, Ying Wen

分类: cs.HC, cs.AI, cs.MA

发布日期: 2024-09-13

备注: 34 pages, Preprint Under Review

💡 一句话要点

在人机协作中引入基于LLM的ToM智能体，探索互惠心智理论对团队表现的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协作 心智理论 大型语言模型 互惠心智 实时共享工作空间

📋 核心要点

现有方法缺乏对人机协作中互惠心智理论的深入研究，阻碍了高效人机团队的构建。
本研究提出一种基于大型语言模型的AI智能体，赋予其心智理论和沟通能力，模拟人机协作中的互惠心智过程。
实验表明，该智能体虽未显著提升团队表现，但增强了人类对AI的理解和被理解感，为AI协作设计提供了新思路。

📝 摘要（中文）

本研究探讨了心智理论(ToM)对人机团队(HATs)协作的影响，特别是当AI智能体具备ToM能力时产生的互惠心智理论(MToM)。MToM过程涉及交互式沟通和基于ToM的策略调整，影响团队表现和协作过程。我们进行了一项混合设计实验，使用基于大型语言模型(LLM)的AI智能体，该智能体具有ToM和通信模块，在一个实时共享工作空间任务中与人类协作。结果表明，智能体的ToM能力并未显著影响团队表现，但增强了人类对智能体的理解以及被理解的感觉。研究发现，大多数参与者认为口头交流增加了人类负担，双向交流反而降低了HAT的性能。我们讨论了这些结果对设计在实时共享工作空间任务中与人类协作的AI智能体的意义。

🔬 方法详解

问题定义：现有的人机协作研究通常忽略了互惠心智理论(MToM)在团队协作中的作用。缺乏对AI智能体心智能力的建模，导致人类难以理解AI的行为意图，从而影响协作效率。此外，现有方法很少关注实时共享工作空间任务中，沟通方式对人机协作的影响。

核心思路：本研究的核心思路是构建一个具备心智理论(ToM)能力的AI智能体，使其能够理解人类的意图和信念，并根据人类的行为调整自身策略。通过模拟人机协作中的MToM过程，探索ToM能力对团队表现和人类体验的影响。研究还关注不同沟通方式（单向、双向）对人机协作的影响。

技术框架：该研究的技术框架包含以下几个主要模块：1) 基于大型语言模型(LLM)的AI智能体，负责执行任务和与人类进行沟通；2) 心智理论(ToM)模块，用于建模人类的意图和信念；3) 沟通模块，支持AI智能体与人类进行单向或双向的沟通；4) 实时共享工作空间任务环境，用于模拟真实的人机协作场景。实验采用混合设计，控制AI智能体的ToM能力和沟通方式，观察其对团队表现和人类体验的影响。

关键创新：本研究的关键创新在于：1) 将心智理论(ToM)引入到基于大型语言模型的AI智能体中，使其具备理解人类意图和信念的能力；2) 探索了互惠心智理论(MToM)在人机协作中的作用，揭示了ToM能力对团队表现和人类体验的影响；3) 研究了不同沟通方式对人机协作的影响，发现双向沟通可能增加人类负担，降低团队表现。

关键设计：AI智能体基于大型语言模型构建，通过微调或提示工程使其具备ToM能力。ToM模块可能采用贝叶斯推理或其他概率模型来估计人类的意图和信念。沟通模块支持自然语言输入和输出，允许AI智能体与人类进行交流。实验中，可能需要设计特定的任务场景和评估指标，以衡量团队表现和人类体验。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AI智能体的ToM能力虽然没有显著提升团队整体表现，但显著增强了人类对AI智能体的理解程度，以及被AI智能体理解的感受。研究还发现，双向沟通模式可能会增加人类的认知负担，反而降低人机协作的效率。这些发现为未来人机协作系统的设计提供了重要的参考依据。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如：智能制造、医疗辅助、教育辅导等。通过赋予AI智能体心智理论能力，可以提高人机协作的效率和流畅性，增强人类对AI的信任感和满意度。未来的研究可以进一步探索更复杂的心智模型和沟通策略，以实现更自然、更高效的人机协作。

📄 摘要（原文）

Theory of Mind (ToM) significantly impacts human collaboration and communication as a crucial capability to understand others. When AI agents with ToM capability collaborate with humans, Mutual Theory of Mind (MToM) arises in such human-AI teams (HATs). The MToM process, which involves interactive communication and ToM-based strategy adjustment, affects the team's performance and collaboration process. To explore the MToM process, we conducted a mixed-design experiment using a large language model-driven AI agent with ToM and communication modules in a real-time shared-workspace task. We find that the agent's ToM capability does not significantly impact team performance but enhances human understanding of the agent and the feeling of being understood. Most participants in our study believe verbal communication increases human burden, and the results show that bidirectional communication leads to lower HAT performance. We discuss the results' implications for designing AI agents that collaborate with humans in real-time shared workspace tasks.

Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理