Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

📄 arXiv: 2602.23312 📥 PDF

作者: Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. Lahr

分类: cs.HC, cs.AI, cs.LG, cs.RO, eess.SY

发布日期: 2026-02-28


💡 一句话要点

评估小语言模型在领导者-跟随者交互中的零样本和单样本适应性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 领导者-跟随者交互 小型语言模型 零样本学习 微调

📋 核心要点

  1. 现有大型语言模型虽在人机交互中表现出色,但其高计算成本和延迟限制了在资源受限机器人上的部署。
  2. 该研究探索了小型语言模型在领导者-跟随者交互中的角色分类能力,通过微调和提示工程实现模型适应。
  3. 实验表明,零样本微调的小型语言模型在角色分类中表现出高准确率和低延迟,但在单样本模式下性能下降。

📝 摘要(中文)

领导者-跟随者交互是人机交互(HRI)中的一个重要范式。然而,对于资源受限的移动和辅助机器人来说,实时分配角色仍然具有挑战性。大型语言模型(LLMs)在自然通信方面显示出前景,但其大小和延迟限制了设备上的部署。小型语言模型(SLMs)提供了一种潜在的替代方案,但它们在HRI中角色分类的有效性尚未得到系统评估。本文提出了一个SLMs在领导者-跟随者通信中的基准,引入了一个从已发布数据库派生的新数据集,并用合成样本进行扩充,以捕捉交互特定的动态。我们研究了两种适应策略:提示工程和微调,在零样本和单样本交互模式下进行研究,并与未经训练的基线进行比较。使用Qwen2.5-0.5B的实验表明,零样本微调实现了稳健的分类性能(86.66%的准确率),同时保持了低延迟(每个样本22.2毫秒),显著优于基线和提示工程方法。然而,结果也表明,在单样本模式下,性能有所下降,其中增加的上下文长度挑战了模型的架构能力。这些发现表明,微调的SLMs为直接角色分配提供了一种有效的解决方案,同时突出了边缘对话复杂性和分类可靠性之间的关键权衡。

🔬 方法详解

问题定义:论文旨在解决资源受限的移动和辅助机器人在人机交互中实时分配领导者和跟随者角色的问题。现有的大型语言模型虽然性能优越,但计算成本高昂,延迟大,不适合在这些设备上部署。小型语言模型虽然计算效率更高,但其在角色分类任务中的有效性尚未得到充分评估。

核心思路:论文的核心思路是利用小型语言模型(SLMs)在计算效率上的优势,通过微调和提示工程等方法,使其适应领导者-跟随者交互的角色分类任务。通过对SLMs进行针对性训练,使其能够在低延迟的条件下准确地识别交互中的角色。

技术框架:论文的技术框架主要包括以下几个部分:1)构建数据集:从已发布数据库派生并使用合成样本扩充,以捕捉交互特定的动态。2)选择小型语言模型:选择Qwen2.5-0.5B作为实验对象。3)实施适应策略:研究零样本和单样本两种模式下的提示工程和微调策略。4)性能评估:评估模型在角色分类任务中的准确率和延迟。

关键创新:论文的关键创新在于系统地评估了小型语言模型在领导者-跟随者交互中的角色分类能力,并提出了零样本微调策略,该策略在保持低延迟的同时,实现了较高的分类准确率。此外,论文还揭示了单样本模式下,上下文长度增加对模型性能的影响。

关键设计:论文的关键设计包括:1)数据集的构建,通过合成数据增强了交互特定动态的覆盖。2)针对Qwen2.5-0.5B模型进行微调,优化模型参数以适应角色分类任务。3)在零样本和单样本两种模式下,对比提示工程和微调策略的效果。4)使用准确率和延迟作为评估指标,全面衡量模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,零样本微调的Qwen2.5-0.5B模型在角色分类任务中取得了86.66%的准确率,同时保持了22.2毫秒的低延迟,显著优于基线和提示工程方法。然而,单样本模式下,模型性能有所下降,表明上下文长度对模型性能有影响。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如辅助机器人、移动机器人等,使其能够根据交互动态实时分配角色,提高协作效率和自然性。未来的研究可以探索更复杂的交互模式和更高效的模型压缩技术,进一步提升小型语言模型在资源受限设备上的应用潜力。

📄 摘要(原文)

Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challenging for resource-constrained mobile and assistive robots. While large language models (LLMs) have shown promise for natural communication, their size and latency limit on-device deployment. Small language models (SLMs) offer a potential alternative, but their effectiveness for role classification in HRI has not been systematically evaluated. In this paper, we present a benchmark of SLMs for leader-follower communication, introducing a novel dataset derived from a published database and augmented with synthetic samples to capture interaction-specific dynamics. We investigate two adaptation strategies: prompt engineering and fine-tuning, studied under zero-shot and one-shot interaction modes, compared with an untrained baseline. Experiments with Qwen2.5-0.5B reveal that zero-shot fine-tuning achieves robust classification performance (86.66% accuracy) while maintaining low latency (22.2 ms per sample), significantly outperforming baseline and prompt-engineered approaches. However, results also indicate a performance degradation in one-shot modes, where increased context length challenges the model's architectural capacity. These findings demonstrate that fine-tuned SLMs provide an effective solution for direct role assignment, while highlighting critical trade-offs between dialogue complexity and classification reliability on the edge.