Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

作者: Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. Lahr

分类: cs.HC, cs.AI, cs.LG, cs.RO, eess.SY

发布日期: 2026-02-26

💡 一句话要点

评估小语言模型在领导者-跟随者交互中的零样本和单样本自适应能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 领导者-跟随者 小型语言模型 零样本学习 微调

📋 核心要点

现有方法难以在资源受限的机器人上实时进行领导者-跟随者角色分配，大型语言模型部署受限。
论文提出利用小型语言模型，通过提示工程和微调两种策略，实现角色分类。
实验表明，零样本微调的Qwen2.5-0.5B模型在角色分类上表现出色，准确率达86.66%，延迟仅22.2ms。

📝 摘要（中文）

领导者-跟随者交互是人机交互(HRI)中的一个重要范式。然而，对于资源受限的移动和辅助机器人来说，实时分配角色仍然具有挑战性。大型语言模型(LLMs)在自然通信方面显示出潜力，但其大小和延迟限制了设备上的部署。小型语言模型(SLMs)提供了一种潜在的替代方案，但其在HRI中角色分类的有效性尚未得到系统评估。本文提出了一个SLMs在领导者-跟随者通信中的基准，引入了一个从已发布数据库派生的新数据集，并用合成样本进行扩充，以捕捉交互特定的动态。我们研究了两种自适应策略：提示工程和微调，在零样本和单样本交互模式下进行研究，并与未经训练的基线进行比较。使用Qwen2.5-0.5B的实验表明，零样本微调实现了稳健的分类性能(86.66%的准确率)，同时保持了低延迟(每个样本22.2毫秒)，显著优于基线和提示工程方法。然而，结果也表明单样本模式下性能下降，其中增加的上下文长度挑战了模型的架构能力。这些发现表明，微调的SLMs为直接角色分配提供了一种有效的解决方案，同时突出了边缘设备上对话复杂性和分类可靠性之间的关键权衡。

🔬 方法详解

问题定义：论文旨在解决在人机交互中，资源受限的移动机器人如何实时且准确地进行领导者-跟随者角色分配的问题。现有的大型语言模型虽然性能优异，但其庞大的体积和高延迟使其难以在边缘设备上部署。因此，需要一种更轻量级且高效的解决方案。

核心思路：论文的核心思路是利用小型语言模型（SLMs），并通过适当的自适应策略（提示工程和微调）来提升其在角色分类任务上的性能。通过对SLM进行微调，使其能够更好地理解和处理人机交互中的对话上下文，从而实现准确的角色分配。

技术框架：论文的技术框架主要包括以下几个部分：1)构建数据集：基于已发布数据库，并使用合成数据进行增强，以捕捉交互特定的动态。2)模型选择：选择Qwen2.5-0.5B作为小型语言模型。3)自适应策略：研究提示工程和微调两种自适应策略。4)评估：在零样本和单样本交互模式下，评估模型的性能，并与基线模型进行比较。

关键创新：论文的关键创新在于：1)系统性地评估了小型语言模型在领导者-跟随者交互中的角色分类能力。2)提出了基于零样本微调的自适应策略，能够在保持低延迟的同时，显著提升模型的分类准确率。3)构建了一个新的数据集，专门用于评估人机交互中的角色分配任务。

关键设计：论文的关键设计包括：1)数据集的构建，通过合成数据增强，模拟真实交互场景。2)选择Qwen2.5-0.5B作为SLM，因为它在性能和大小之间取得了较好的平衡。3)采用零样本微调策略，避免了对大量标注数据的依赖。4)在单样本模式下，通过增加上下文长度来模拟更复杂的对话场景，并评估模型性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过零样本微调的Qwen2.5-0.5B模型在角色分类任务中取得了86.66%的准确率，显著优于基线模型和提示工程方法。同时，该模型保持了较低的延迟（22.2毫秒/样本），使其能够在资源受限的边缘设备上实时部署。然而，单样本模式下的性能有所下降，表明模型在处理更长的上下文时存在一定的挑战。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如辅助机器人、服务机器人和移动机器人等。通过准确的角色分配，机器人可以更好地理解人类意图，从而实现更自然、高效的交互。未来的研究可以探索更复杂的交互模式和更鲁棒的自适应策略，进一步提升机器人在人机协作中的表现。

📄 摘要（原文）

Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challenging for resource-constrained mobile and assistive robots. While large language models (LLMs) have shown promise for natural communication, their size and latency limit on-device deployment. Small language models (SLMs) offer a potential alternative, but their effectiveness for role classification in HRI has not been systematically evaluated. In this paper, we present a benchmark of SLMs for leader-follower communication, introducing a novel dataset derived from a published database and augmented with synthetic samples to capture interaction-specific dynamics. We investigate two adaptation strategies: prompt engineering and fine-tuning, studied under zero-shot and one-shot interaction modes, compared with an untrained baseline. Experiments with Qwen2.5-0.5B reveal that zero-shot fine-tuning achieves robust classification performance (86.66% accuracy) while maintaining low latency (22.2 ms per sample), significantly outperforming baseline and prompt-engineered approaches. However, results also indicate a performance degradation in one-shot modes, where increased context length challenges the model's architectural capacity. These findings demonstrate that fine-tuned SLMs provide an effective solution for direct role assignment, while highlighting critical trade-offs between dialogue complexity and classification reliability on the edge.

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理