A Service Robot's Guide to Interacting with Busy Customers

作者: Suraj Nukala, Meera Sushma, Leimin Tian, Akansel Cosgun, Dana Kulic

分类: cs.RO, cs.HC

发布日期: 2025-12-19

备注: Presented at ACRA 2025. 10 pages, 4 figures. Includes a user study (N=24) using the Temi robot evaluating speech, visual, and micromotion modalities

期刊: Proceedings of the 2025 Australasian Conference on Robotics and Automation (ACRA 2025)

💡 一句话要点

研究服务机器人与忙碌顾客交互，优化通信方式以提升用户体验

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 服务机器人 人机交互 通信模态 用户研究 注意力捕获

📋 核心要点

现有服务机器人与忙碌顾客交互时，缺乏有效沟通策略，难以同时兼顾注意力吸引和意图表达。
该研究对比分析了语音、视觉和微动姿势等多种通信方式，探索其在吸引注意力和传递意图方面的效果。
实验结果表明，语音更擅长吸引注意力，而视觉在清晰表达意图方面更具优势，为优化机器人交互策略提供依据。

📝 摘要（中文）

本研究探讨了服务机器人与忙碌顾客有效沟通的方式，着重考察了声觉/语音、视觉显示和微动姿势等常用通信方式在模拟餐厅场景中的有效性。我们进行了一项包含两个部分的用户研究（N=24），使用Temi机器人模拟配送任务，参与者进行打字游戏（MonkeyType）以模拟忙碌状态。通过每分钟字数（WPM）和打字准确率来衡量参与者在打字游戏中的投入程度。第一部分比较了非语言声觉提示与基线条件，以评估单杯配送任务中的注意力捕获。第二部分评估了语音、视觉显示、微动姿势及其多模态组合在传达特定意图（正确选择杯子）方面的有效性。结果表明，语音在捕获注意力方面非常有效，但在清晰传达意图方面效果较差。参与者认为视觉是传达意图最有效的模式，其次是语音，微动姿势的排名最低。这些发现为优化服务机器人的通信策略提供了见解，强调了在动态酒店环境中，注意力捕获和意图沟通的不同作用，从而增强用户体验。

🔬 方法详解

问题定义：论文旨在解决服务机器人在酒店等动态环境中与忙碌顾客交互时，如何有效传递信息的问题。现有方法通常采用单一的通信方式，无法同时满足吸引注意力和清晰表达意图的需求。顾客的忙碌状态（如打字）会进一步降低交互效果。

核心思路：论文的核心思路是对比分析不同通信模态（语音、视觉、微动姿势）在吸引注意力和传递意图方面的效果，并探索多模态融合的可能性。通过用户研究，量化不同模态的优缺点，从而为服务机器人选择合适的通信策略提供指导。

技术框架：该研究采用用户研究的方法，模拟餐厅场景中的配送任务。参与者在进行打字游戏以模拟忙碌状态的同时，与Temi机器人进行交互。研究分为两个部分：第一部分评估声觉提示在吸引注意力方面的效果；第二部分评估语音、视觉、微动姿势及其多模态组合在传递意图方面的效果。通过问卷调查和行为数据（如杯子选择的正确率）来评估不同通信方式的效果。

关键创新：该研究的关键创新在于系统性地对比分析了不同通信模态在服务机器人交互中的作用，区分了注意力捕获和意图传递两个不同的目标，并针对性地评估了不同模态的有效性。此外，该研究考虑了顾客的忙碌状态对交互效果的影响，更贴近实际应用场景。

关键设计：实验中，使用MonkeyType打字游戏模拟顾客的忙碌状态，通过WPM和打字准确率来量化忙碌程度。Temi机器人作为交互平台，执行配送任务。通信模态包括：语音（预先录制好的语音指令）、视觉（机器人屏幕上显示的文字或图像）、微动姿势（机器人头部或手臂的轻微移动）。通过问卷调查评估参与者对不同模态的感知和理解。具体参数设置和损失函数未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，语音在吸引注意力方面效果显著，但视觉在清晰传达意图方面更胜一筹。参与者普遍认为视觉是传达意图最有效的模态，其次是语音，而微动姿势的效果相对较差。这些发现为服务机器人选择合适的通信策略提供了量化依据，有助于提升用户满意度。

🎯 应用场景

该研究成果可应用于各种服务机器人场景，如酒店、餐厅、医院等。通过优化机器人的通信方式，可以提升用户体验，提高服务效率。例如，在嘈杂的环境中，机器人可以使用视觉提示来传递信息；在需要清晰指示的场景中，可以使用语音和视觉的组合。该研究为服务机器人的智能化发展提供了重要参考。

📄 摘要（原文）

The growing use of service robots in hospitality highlights the need to understand how to effectively communicate with pre-occupied customers. This study investigates the efficacy of commonly used communication modalities by service robots, namely, acoustic/speech, visual display, and micromotion gestures in capturing attention and communicating intention with a user in a simulated restaurant scenario. We conducted a two-part user study (N=24) using a Temi robot to simulate delivery tasks, with participants engaged in a typing game (MonkeyType) to emulate a state of busyness. The participants' engagement in the typing game is measured by words per minute (WPM) and typing accuracy. In Part 1, we compared non-verbal acoustic cue versus baseline conditions to assess attention capture during a single-cup delivery task. In Part 2, we evaluated the effectiveness of speech, visual display, micromotion and their multimodal combination in conveying specific intentions (correct cup selection) during a two-cup delivery task. The results indicate that, while speech is highly effective in capturing attention, it is less successful in clearly communicating intention. Participants rated visual as the most effective modality for intention clarity, followed by speech, with micromotion being the lowest ranked.These findings provide insights into optimizing communication strategies for service robots, highlighting the distinct roles of attention capture and intention communication in enhancing user experience in dynamic hospitality settings.

A Service Robot's Guide to Interacting with Busy Customers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理