SRWToolkit: An Open Source Wizard of Oz Toolkit to Create Social Robotic Avatars

📄 arXiv: 2509.04356v1 📥 PDF

作者: Atikkhan Faridkhan Nilgar, Kristof Van Laerhoven, Ayub Kinoti

分类: cs.HC, cs.RO

发布日期: 2025-09-04

期刊: 2025 International Conference on Social Robotics (ICSR)


💡 一句话要点

SRWToolkit:一个开源的社会机器人化身快速原型设计工具

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 社会机器人 大型语言模型 原型设计 Wizard of Oz 本地推理 开源工具包

📋 核心要点

  1. 现有社会机器人化身原型设计依赖云端LLM,存在延迟和数据隐私问题,限制了本地化和定制化应用。
  2. SRWToolkit采用本地LLM推理,提供模块化设计,支持快速配置化身外观、行为和语言,实现高效原型设计。
  3. 用户研究表明,SRWToolkit在可用性、信任度和用户体验方面表现良好,验证了其在人机交互研究中的潜力。

📝 摘要(中文)

本文介绍SRWToolkit,一个开源的Wizard of Oz工具包,旨在促进由本地大型语言模型(LLM)驱动的社会机器人化身的快速原型设计。我们的基于Web的工具包通过文本输入、按钮激活的语音和唤醒词命令实现多模态交互。该工具包通过直观的控制面板提供化身外观、行为、语言和声音的实时配置。与依赖于基于云的LLM服务的先前工作相比,SRWToolkit强调模块化,并通过本地LLM推理确保设备上的功能。在我们的一个小规模用户研究(n=11)中,参与者创建了各种机器人角色(医院接待员、数学老师和驾驶助手)并与之互动,这证明了该工具包在可用性、信任和用户体验方面的积极成果。该工具包能够快速有效地开发针对研究人员需求定制的机器人角色,从而支持人机交互中的可扩展研究。

🔬 方法详解

问题定义:现有社会机器人化身原型设计工具通常依赖于云端LLM服务,这带来了几个问题。首先,网络延迟会影响交互的实时性,降低用户体验。其次,将用户数据发送到云端存在隐私风险。此外,云端服务通常缺乏足够的定制化选项,难以满足研究人员对特定机器人角色的需求。因此,需要一种能够在本地运行、支持快速定制且保证用户隐私的社会机器人化身原型设计工具。

核心思路:SRWToolkit的核心思路是利用本地LLM进行推理,从而消除对云端服务的依赖。通过提供一个直观的Web界面,用户可以轻松配置机器人化身的外观、行为、语言和声音。这种设计使得研究人员能够快速创建和测试各种机器人角色,而无需担心网络延迟或数据隐私问题。此外,模块化的设计允许用户根据自己的需求扩展工具包的功能。

技术框架:SRWToolkit的技术框架主要包括以下几个模块:1) Web界面:提供用户友好的控制面板,用于配置机器人化身;2) 本地LLM推理引擎:负责在本地设备上运行LLM,生成机器人的响应;3) 多模态交互模块:支持文本输入、按钮激活的语音和唤醒词命令等多种交互方式;4) 化身控制模块:控制机器人化身的外观、行为和声音。整个流程是用户通过Web界面配置化身,然后通过多模态交互模块与化身进行交互,本地LLM推理引擎根据用户的输入生成响应,最后化身控制模块将响应转化为机器人的动作和语音。

关键创新:SRWToolkit最重要的技术创新点在于其完全本地化的LLM推理。与依赖云端服务的传统方法相比,SRWToolkit能够在本地设备上运行LLM,从而显著降低了网络延迟,提高了交互的实时性,并保护了用户的数据隐私。此外,SRWToolkit的模块化设计和直观的Web界面也使其易于使用和扩展。

关键设计:SRWToolkit的关键设计包括:1) 使用Web技术构建用户界面,使其可以在各种设备上运行;2) 采用模块化设计,方便用户根据自己的需求添加新的功能;3) 提供丰富的配置选项,允许用户定制化身的外观、行为、语言和声音;4) 支持多种交互方式,包括文本输入、按钮激活的语音和唤醒词命令;5) 优化本地LLM推理引擎,以提高响应速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究(n=11)表明,参与者能够使用SRWToolkit快速创建并与各种机器人角色(如医院接待员、数学老师和驾驶助手)进行互动。结果显示,该工具包在可用性、信任度和用户体验方面表现出积极的效果。这些结果验证了SRWToolkit在人机交互研究中的潜力,并表明其能够有效地支持机器人化身的快速原型设计。

🎯 应用场景

SRWToolkit可广泛应用于人机交互研究、教育培训、医疗保健等领域。研究人员可以利用该工具快速创建各种机器人角色,用于研究人与机器人之间的信任、合作和沟通。在教育领域,SRWToolkit可以用于开发个性化的教学机器人,帮助学生学习知识和技能。在医疗保健领域,该工具可以用于开发辅助护理机器人,为患者提供情感支持和康复指导。未来,SRWToolkit有望成为人机交互领域的重要工具。

📄 摘要(原文)

We present SRWToolkit, an open-source Wizard of Oz toolkit designed to facilitate the rapid prototyping of social robotic avatars powered by local large language models (LLMs). Our web-based toolkit enables multimodal interaction through text input, button-activated speech, and wake-word command. The toolkit offers real-time configuration of avatar appearance, behavior, language, and voice via an intuitive control panel. In contrast to prior works that rely on cloud-based LLM services, SRWToolkit emphasizes modularity and ensures on-device functionality through local LLM inference. In our small-scale user study ($n=11$), participants created and interacted with diverse robotic roles (hospital receptionist, mathematics teacher, and driving assistant), which demonstrated positive outcomes in the toolkit's usability, trust, and user experience. The toolkit enables rapid and efficient development of robot characters customized to researchers' needs, supporting scalable research in human-robot interaction.