Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction
作者: Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. Lahr
分类: cs.HC, cs.AI, cs.LG, cs.RO, eess.SY
发布日期: 2026-02-26
💡 一句话要点
评估小语言模型在领导者-跟随者交互中的零样本和单样本自适应能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 领导者-跟随者 小型语言模型 零样本学习 微调
📋 核心要点
- 现有方法难以在资源受限的机器人上实时进行领导者-跟随者角色分配,大型语言模型部署受限。
- 论文提出利用小型语言模型,通过提示工程和微调两种策略,实现角色分类。
- 实验表明,零样本微调的Qwen2.5-0.5B模型在角色分类上表现出色,准确率达86.66%,延迟仅22.2ms。
📝 摘要(中文)
领导者-跟随者交互是人机交互(HRI)中的一个重要范式。然而,对于资源受限的移动和辅助机器人来说,实时分配角色仍然具有挑战性。大型语言模型(LLMs)在自然通信方面显示出潜力,但其大小和延迟限制了设备上的部署。小型语言模型(SLMs)提供了一种潜在的替代方案,但其在HRI中角色分类的有效性尚未得到系统评估。本文提出了一个SLMs在领导者-跟随者通信中的基准,引入了一个从已发布数据库派生的新数据集,并用合成样本进行扩充,以捕捉交互特定的动态。我们研究了两种自适应策略:提示工程和微调,在零样本和单样本交互模式下进行研究,并与未经训练的基线进行比较。使用Qwen2.5-0.5B的实验表明,零样本微调实现了稳健的分类性能(86.66%的准确率),同时保持了低延迟(每个样本22.2毫秒),显著优于基线和提示工程方法。然而,结果也表明单样本模式下性能下降,其中增加的上下文长度挑战了模型的架构能力。这些发现表明,微调的SLMs为直接角色分配提供了一种有效的解决方案,同时突出了边缘设备上对话复杂性和分类可靠性之间的关键权衡。
🔬 方法详解
问题定义:论文旨在解决在人机交互中,资源受限的移动机器人如何实时且准确地进行领导者-跟随者角色分配的问题。现有的大型语言模型虽然性能优异,但其庞大的体积和高延迟使其难以在边缘设备上部署。因此,需要一种更轻量级且高效的解决方案。
核心思路:论文的核心思路是利用小型语言模型(SLMs),并通过适当的自适应策略(提示工程和微调)来提升其在角色分类任务上的性能。通过对SLM进行微调,使其能够更好地理解和处理人机交互中的对话上下文,从而实现准确的角色分配。
技术框架:论文的技术框架主要包括以下几个部分:1)构建数据集:基于已发布数据库,并使用合成数据进行增强,以捕捉交互特定的动态。2)模型选择:选择Qwen2.5-0.5B作为小型语言模型。3)自适应策略:研究提示工程和微调两种自适应策略。4)评估:在零样本和单样本交互模式下,评估模型的性能,并与基线模型进行比较。
关键创新:论文的关键创新在于:1)系统性地评估了小型语言模型在领导者-跟随者交互中的角色分类能力。2)提出了基于零样本微调的自适应策略,能够在保持低延迟的同时,显著提升模型的分类准确率。3)构建了一个新的数据集,专门用于评估人机交互中的角色分配任务。
关键设计:论文的关键设计包括:1)数据集的构建,通过合成数据增强,模拟真实交互场景。2)选择Qwen2.5-0.5B作为SLM,因为它在性能和大小之间取得了较好的平衡。3)采用零样本微调策略,避免了对大量标注数据的依赖。4)在单样本模式下,通过增加上下文长度来模拟更复杂的对话场景,并评估模型性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过零样本微调的Qwen2.5-0.5B模型在角色分类任务中取得了86.66%的准确率,显著优于基线模型和提示工程方法。同时,该模型保持了较低的延迟(22.2毫秒/样本),使其能够在资源受限的边缘设备上实时部署。然而,单样本模式下的性能有所下降,表明模型在处理更长的上下文时存在一定的挑战。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如辅助机器人、服务机器人和移动机器人等。通过准确的角色分配,机器人可以更好地理解人类意图,从而实现更自然、高效的交互。未来的研究可以探索更复杂的交互模式和更鲁棒的自适应策略,进一步提升机器人在人机协作中的表现。
📄 摘要(原文)
Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challenging for resource-constrained mobile and assistive robots. While large language models (LLMs) have shown promise for natural communication, their size and latency limit on-device deployment. Small language models (SLMs) offer a potential alternative, but their effectiveness for role classification in HRI has not been systematically evaluated. In this paper, we present a benchmark of SLMs for leader-follower communication, introducing a novel dataset derived from a published database and augmented with synthetic samples to capture interaction-specific dynamics. We investigate two adaptation strategies: prompt engineering and fine-tuning, studied under zero-shot and one-shot interaction modes, compared with an untrained baseline. Experiments with Qwen2.5-0.5B reveal that zero-shot fine-tuning achieves robust classification performance (86.66% accuracy) while maintaining low latency (22.2 ms per sample), significantly outperforming baseline and prompt-engineered approaches. However, results also indicate a performance degradation in one-shot modes, where increased context length challenges the model's architectural capacity. These findings demonstrate that fine-tuned SLMs provide an effective solution for direct role assignment, while highlighting critical trade-offs between dialogue complexity and classification reliability on the edge.