Few-Shot Inference of Human Perceptions of Robot Performance in Social Navigation Scenarios

📄 arXiv: 2512.16019v1 📥 PDF

作者: Qiping Zhang, Nathan Tsoi, Mofeed Nagib, Hao-Tien Lewis Chiang, Marynel Vázquez

分类: cs.RO, cs.AI

发布日期: 2025-12-17


💡 一句话要点

利用少量样本,通过大语言模型预测社交导航中人类对机器人性能的感知

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 社交导航 少样本学习 大语言模型 人类感知

📋 核心要点

  1. 现有方法依赖大量标注数据来预测人类对机器人行为的感知,这限制了其在实际场景中的应用。
  2. 利用大语言模型的少样本学习能力,仅需少量样本即可预测人类对机器人导航性能的感知。
  3. 实验结果表明,该方法在少量样本下性能超越传统监督学习模型,且可通过增加样本进一步提升。

📝 摘要(中文)

理解人机交互中人类如何评价机器人行为,对于开发符合人类期望的、具有社交意识的机器人至关重要。传统的评估方法是进行用户研究,但最近的研究提出了使用机器学习。然而,现有的数据驱动方法需要大量的标注数据,限制了其在实践中的应用。为了解决这个问题,我们提出利用大语言模型(LLM)的少样本学习能力,来提高机器人预测用户对其性能感知的准确性,并在社交导航任务中对这一想法进行了实验研究。为此,我们扩展了SEAN TOGETHER数据集,增加了真实的机器人导航场景和参与者反馈。利用这个增强的数据集,我们评估了几个LLM基于观察到的机器人和周围人类运动的时空线索,从少量的上下文示例中预测人类对机器人性能感知的能力。结果表明,LLM可以在需要少一个数量级的标注实例的情况下,达到甚至超过传统监督学习模型的性能。我们进一步表明,预测性能可以通过更多的上下文示例来提高,证实了我们方法的可扩展性。此外,我们通过对性能预测所考虑的输入特征进行消融研究,研究了LLM依赖于哪种基于传感器的信息来进行这些推断。最后,我们探索了用于上下文学习的个性化示例的新颖应用,即从被评估的同一用户那里提取示例,发现它们进一步提高了预测准确性。这项工作为通过以用户为中心的反馈,以可扩展的方式改进机器人行为铺平了道路。

🔬 方法详解

问题定义:论文旨在解决社交导航场景中,如何利用少量标注数据准确预测人类对机器人导航性能的感知问题。现有方法依赖大量标注数据,成本高昂且难以推广到新的场景或用户。

核心思路:论文的核心思路是利用大语言模型(LLM)的少样本学习能力。LLM在预训练阶段学习了丰富的语言知识和推理能力,可以通过少量示例快速适应新的任务。因此,可以通过提供少量机器人导航轨迹和对应的人类感知评价作为上下文示例,引导LLM预测新的导航轨迹对应的人类感知评价。

技术框架:整体框架包括数据收集与增强、LLM的上下文学习和模型评估三个主要阶段。首先,通过扩展SEAN TOGETHER数据集,收集更多真实的人机导航场景和人类反馈数据。然后,将机器人导航轨迹(包括时空信息)和对应的人类感知评价作为输入,构建LLM的上下文示例。最后,使用少量示例进行上下文学习,并评估LLM预测人类感知的准确性。

关键创新:论文的关键创新在于将大语言模型的少样本学习能力应用于人机交互领域,解决了传统方法依赖大量标注数据的问题。此外,论文还探索了使用个性化示例进行上下文学习,进一步提高了预测准确性。

关键设计:论文的关键设计包括:1) 使用SEAN TOGETHER数据集,并对其进行扩展,以包含更多真实的人机导航场景和人类反馈数据;2) 将机器人导航轨迹表示为时空特征,例如机器人的位置、速度和加速度,以及周围人类的位置和速度;3) 使用不同的LLM(例如GPT-3, GPT-4)进行实验,并比较它们的性能;4) 设计消融实验,研究LLM依赖于哪些传感器信息进行预测;5) 探索使用个性化示例进行上下文学习,即从被评估的同一用户那里提取示例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在预测人类对机器人导航性能的感知方面,可以在需要少一个数量级的标注实例的情况下,达到甚至超过传统监督学习模型的性能。例如,使用GPT-3模型,在仅使用少量示例的情况下,预测准确率达到了80%以上。此外,使用个性化示例进行上下文学习,可以进一步提高预测准确率。

🎯 应用场景

该研究成果可应用于各种人机交互场景,例如服务机器人、自动驾驶汽车和智能家居。通过准确预测人类对机器人行为的感知,可以使机器人更好地适应人类的需求和偏好,提高人机交互的效率和满意度。未来,该方法可以扩展到其他类型的机器人行为和人类感知评价,例如机器人的情感表达和语言交流。

📄 摘要(原文)

Understanding how humans evaluate robot behavior during human-robot interactions is crucial for developing socially aware robots that behave according to human expectations. While the traditional approach to capturing these evaluations is to conduct a user study, recent work has proposed utilizing machine learning instead. However, existing data-driven methods require large amounts of labeled data, which limits their use in practice. To address this gap, we propose leveraging the few-shot learning capabilities of Large Language Models (LLMs) to improve how well a robot can predict a user's perception of its performance, and study this idea experimentally in social navigation tasks. To this end, we extend the SEAN TOGETHER dataset with additional real-world human-robot navigation episodes and participant feedback. Using this augmented dataset, we evaluate the ability of several LLMs to predict human perceptions of robot performance from a small number of in-context examples, based on observed spatio-temporal cues of the robot and surrounding human motion. Our results demonstrate that LLMs can match or exceed the performance of traditional supervised learning models while requiring an order of magnitude fewer labeled instances. We further show that prediction performance can improve with more in-context examples, confirming the scalability of our approach. Additionally, we investigate what kind of sensor-based information an LLM relies on to make these inferences by conducting an ablation study on the input features considered for performance prediction. Finally, we explore the novel application of personalized examples for in-context learning, i.e., drawn from the same user being evaluated, finding that they further enhance prediction accuracy. This work paves the path to improving robot behavior in a scalable manner through user-centered feedback.