Knowledge Distillation for LLM-Based Human Activity Recognition in Homes

📄 arXiv: 2601.07469v1 📥 PDF

作者: Julien Cumin, Oussama Er-Rahmany, Xi Chen

分类: cs.AI

发布日期: 2026-01-12


💡 一句话要点

利用知识蒸馏提升LLM在家庭环境人体活动识别中的效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 大型语言模型 知识蒸馏 智能家居 模型压缩

📋 核心要点

  1. 现有HAR方法在智能家居等场景中面临挑战,需要更强大的模型来提升识别精度和泛化能力。
  2. 该论文提出利用知识蒸馏技术,将大型LLM的知识迁移到小型LLM,以降低模型复杂度和计算成本。
  3. 实验结果表明,经过知识蒸馏的小型LLM在性能上接近大型LLM,同时显著减少了参数量。

📝 摘要(中文)

人体活动识别(HAR)是情境感知应用的核心问题,尤其是在智能家居和辅助生活领域。最近的研究表明,大型语言模型(LLM)可用于家庭环境中的HAR,达到高性能并解决关键挑战。本文针对LLM在HAR中的应用,在两个先进数据集上提供了新的实验结果。具体来说,我们展示了识别性能如何随LLM规模的变化而演变。此外,我们实验了知识蒸馏技术,使用大型LLM生成的HAR推理示例来微调较小的LLM。结果表明,这种微调后的模型可以达到几乎与最大LLM相当的性能,同时参数量减少了50倍。

🔬 方法详解

问题定义:论文旨在解决在家庭环境中利用大型语言模型进行人体活动识别时,模型参数量过大、计算资源消耗过高的问题。现有方法虽然利用LLM取得了较好的识别效果,但部署和应用成本较高,难以在资源受限的设备上运行。

核心思路:论文的核心思路是利用知识蒸馏技术,将大型LLM(教师模型)的知识迁移到小型LLM(学生模型),从而在保持识别性能的同时,显著降低模型的大小和计算复杂度。通过让学生模型学习教师模型的输出分布,使其能够模仿教师模型的推理过程。

技术框架:整体框架包括以下几个阶段:1) 使用大型LLM(教师模型)在HAR数据集上进行训练,使其具备较强的活动识别能力。2) 利用训练好的教师模型,生成大量的HAR推理示例,包括输入序列和对应的预测结果。3) 使用这些推理示例,对小型LLM(学生模型)进行微调,使其学习教师模型的知识。4) 评估学生模型在HAR数据集上的性能,并与教师模型进行比较。

关键创新:最重要的技术创新点在于将知识蒸馏技术应用于LLM-based的HAR任务,并探索了不同大小LLM之间的知识迁移效果。与直接训练小型LLM相比,知识蒸馏能够更好地利用大型LLM的知识,从而提升小型LLM的性能。

关键设计:论文的关键设计包括:1) 选择合适的LLM作为教师模型和学生模型,并根据任务特点进行调整。2) 设计有效的知识蒸馏损失函数,例如KL散度损失,用于衡量学生模型和教师模型输出分布之间的差异。3) 探索不同的微调策略,例如调整学习率、训练轮数等,以优化学生模型的性能。

📊 实验亮点

实验结果表明,通过知识蒸馏,小型LLM的性能可以接近大型LLM,同时参数量减少了50倍。这表明知识蒸馏是一种有效的模型压缩方法,可以在保持性能的同时显著降低计算成本。具体而言,经过微调的小型LLM在两个公开数据集上都取得了具有竞争力的结果,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于智能家居、辅助生活、老年人监护等领域。通过部署轻量级的LLM,可以在资源受限的设备上实现高效的人体活动识别,从而为用户提供个性化的服务和支持。例如,可以根据用户的活动状态自动调节家居设备,或者在用户发生意外时及时发出警报。未来的研究可以进一步探索如何利用多模态数据来提升HAR的准确性和鲁棒性。

📄 摘要(原文)

Human Activity Recognition (HAR) is a central problem for context-aware applications, especially for smart homes and assisted living. A few very recent studies have shown that Large Language Models (LLMs) can be used for HAR at home, reaching high performance and addressing key challenges. In this paper, we provide new experimental results regarding the use of LLMs for HAR, on two state-of-the-art datasets. More specifically, we show how recognition performance evolves depending on the size of the LLM used. Moreover, we experiment on the use of knowledge distillation techniques to fine-tune smaller LLMs with HAR reasoning examples generated by larger LLMs. We show that such fine-tuned models can perform almost as well as the largest LLMs, while having 50 times less parameters.