Deliberate Lab: A Platform for Real-Time Human-AI Social Experiments

📄 arXiv: 2510.13011v1 📥 PDF

作者: Crystal Qian, Vivian Tsai, Michael Behr, Nada Hussein, Léo Laugier, Nithum Thain, Lucas Dixon

分类: cs.HC, cs.AI

发布日期: 2025-10-14


💡 一句话要点

Deliberate Lab:用于实时人机社会实验的开源平台,支持大规模LLM智能体。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 社会实验 大型语言模型 行为实验 开源平台

📋 核心要点

  1. 现有研究人机交互的实验平台缺乏对大规模实时多方研究的支持,且定制化程度高,难以复现。
  2. Deliberate Lab 旨在提供一个开源平台,支持人类和基于 LLM 的智能体参与大规模实时行为实验。
  3. 该平台已部署 12 个月,有 88 位实验者和 9195 位实验参与者,案例研究表明其降低了技术门槛。

📝 摘要(中文)

社会和行为科学家越来越关注研究人类与人工智能的互动、协作和决策方式。然而,此类研究的实验基础设施仍然不完善:(1)很少有平台支持大规模的实时、多方研究;(2)大多数部署需要定制工程,限制了可复制性和可访问性;(3)现有工具没有将AI智能体视为一等参与者。我们提出了Deliberate Lab,一个开源平台,用于大规模、实时的行为实验,支持人类参与者和基于大型语言模型(LLM)的智能体。我们报告了该平台为期12个月的公开部署情况(N=88位实验者,N=9195位实验参与者),分析了使用模式和工作流程。案例研究和使用场景来自平台用户,并辅以对部分实验者的深入访谈。通过降低技术门槛并标准化对混合人机实验的支持,Deliberate Lab扩展了研究集体决策和以人为本的AI的方法论。

🔬 方法详解

问题定义:当前研究人机协作的实验平台存在三个主要痛点:一是缺乏对大规模、实时、多方研究的支持;二是部署需要大量定制化工程,导致可复现性差,难以推广;三是没有将AI智能体平等地视为实验参与者,限制了研究的深度和广度。

核心思路:Deliberate Lab的核心思路是构建一个通用、易用、可扩展的实验平台,通过提供标准化的接口和工具,降低人机实验的技术门槛,并支持将LLM智能体作为平等参与者纳入实验流程。这样可以促进更多研究者参与到人机协作的研究中,并探索更复杂、更真实的交互场景。

技术框架:Deliberate Lab的整体架构包含以下几个主要模块:用户管理模块(负责用户注册、登录和权限管理),实验设计模块(允许研究者定义实验流程、参数和参与者类型),实时交互模块(支持人类和AI智能体之间的实时通信和数据交换),数据收集和分析模块(用于收集实验数据并提供分析工具)。该平台采用模块化设计,方便扩展和定制。

关键创新:Deliberate Lab的关键创新在于其对LLM智能体的原生支持。平台提供了一套API,允许研究者轻松地将LLM智能体集成到实验中,并控制其行为和决策过程。此外,平台还提供了实时交互界面,方便研究者观察和干预智能体的行为。

关键设计:平台采用WebSockets实现实时通信,保证低延迟和高并发。实验设计模块允许研究者使用图形化界面定义实验流程,无需编写代码。数据收集模块自动记录所有实验数据,并提供标准化的数据格式,方便后续分析。平台还支持多种实验范式,如博弈论、协作任务和决策任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Deliberate Lab 平台已成功部署 12 个月,吸引了 88 位实验者和 9195 位实验参与者。通过案例研究和用户访谈,证明该平台显著降低了人机实验的技术门槛,并促进了人机协作研究的开展。平台的使用模式和工作流程分析为进一步优化平台设计提供了宝贵的数据支持。

🎯 应用场景

Deliberate Lab 可应用于研究人机协作、群体决策、社会行为等领域。例如,可以用于研究人类与AI在自动驾驶、医疗诊断、教育等领域的协作模式,评估AI对人类决策的影响,以及探索如何设计更有效的人机交互界面。该平台有望推动人机融合的深入发展,并为构建更智能、更人性化的AI系统提供理论基础。

📄 摘要(原文)

Social and behavioral scientists increasingly aim to study how humans interact, collaborate, and make decisions alongside artificial intelligence. However, the experimental infrastructure for such work remains underdeveloped: (1) few platforms support real-time, multi-party studies at scale; (2) most deployments require bespoke engineering, limiting replicability and accessibility, and (3) existing tools do not treat AI agents as first-class participants. We present Deliberate Lab, an open-source platform for large-scale, real-time behavioral experiments that supports both human participants and large language model (LLM)-based agents. We report on a 12-month public deployment of the platform (N=88 experimenters, N=9195 experiment participants), analyzing usage patterns and workflows. Case studies and usage scenarios are aggregated from platform users, complemented by in-depth interviews with select experimenters. By lowering technical barriers and standardizing support for hybrid human-AI experimentation, Deliberate Lab expands the methodological repertoire for studying collective decision-making and human-centered AI.