Efficient and Adaptive Human Activity Recognition via LLM Backbones

📄 arXiv: 2605.12019v1 📥 PDF

作者: Aleksandr Bredikhin, Philippe Lalanda, German Vega

分类: cs.LG, cs.AI

发布日期: 2026-05-12


💡 一句话要点

利用LLM骨干网络实现高效自适应的人体活动识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 预训练语言模型 时间序列分析 卷积神经网络 低秩适应

📋 核心要点

  1. 现有HAR方法依赖于特定任务的Transformer模型,存在训练成本高、数据需求大和领域适应性差的问题。
  2. 该论文提出重用大型预训练语言模型(LLM)作为HAR的通用时间骨干网络,并使用卷积投影桥接模态差距。
  3. 实验表明,该方法能够快速收敛,具有强大的数据效率和跨数据集迁移能力,尤其是在低数据和少样本设置中。

📝 摘要(中文)

人体活动识别(HAR)是普适计算系统的核心任务,模型必须在严格的计算约束下运行,同时对异构和不断变化的部署条件保持鲁棒性。基于Transformer架构的最新进展显著提高了识别性能,但通常依赖于从头开始训练的特定于任务的模型,导致高训练成本、大数据需求和对领域转移的有限适应性。本文提出了一种范式转变,重用大型预训练语言模型(LLM)作为基于传感器的HAR的通用时间骨干网络,而不是设计特定于领域的Transformer。为了弥合惯性时间序列和语言模型之间的模态差距,我们引入了一种结构化的卷积投影,将多元加速度计和陀螺仪信号映射到LLM的潜在空间。预训练的骨干网络保持冻结,并使用参数高效的低秩适应(LoRA)进行调整,从而大大减少了可训练参数的数量和总体训练成本。通过在标准HAR基准上的大量实验,我们表明这种方法能够实现快速收敛、强大的数据效率和强大的跨数据集迁移,尤其是在低数据和少样本设置中。同时,我们的结果突出了卷积前端和LLM的互补作用,其中局部不变性在信号级别处理,而远程时间依赖性由预训练的骨干网络捕获。总的来说,这项工作表明LLM可以作为自适应HAR系统的实用、节俭和可扩展的基础,为在原始语言领域之外重用基础模型开辟了新的方向。

🔬 方法详解

问题定义:现有的人体活动识别(HAR)方法,特别是基于Transformer的架构,通常需要针对特定任务从头开始训练模型。这导致了高昂的计算成本、大量的数据需求,并且难以适应新的领域或数据集。现有的方法在面对数据稀缺或领域偏移时,鲁棒性较差。

核心思路:该论文的核心思路是利用大型预训练语言模型(LLM)作为HAR任务的通用时间序列骨干网络。通过将传感器数据转换到LLM的潜在空间,并利用LLM强大的时间序列建模能力,可以避免从头开始训练特定任务的模型,从而降低训练成本并提高泛化能力。

技术框架:该方法主要包含两个核心模块:1) 结构化卷积投影模块:该模块负责将来自加速度计和陀螺仪的多元时间序列信号映射到LLM的潜在空间。通过卷积操作提取局部特征,并将其转换为LLM可以理解的token表示。2) LLM骨干网络:使用预训练的LLM作为时间序列建模的核心。LLM负责捕捉传感器数据中的长期依赖关系和上下文信息。为了降低训练成本,LLM的参数被冻结,只训练少量的适配器参数。

关键创新:该论文的关键创新在于将LLM应用于HAR任务,并提出了一种有效的模态转换方法。与传统的HAR方法相比,该方法避免了从头开始训练模型,从而大大降低了训练成本和数据需求。此外,通过利用LLM强大的泛化能力,该方法在跨数据集迁移和低数据场景下表现出更好的鲁棒性。

关键设计:该方法使用结构化的卷积投影模块将传感器数据映射到LLM的潜在空间。具体来说,使用了多个一维卷积层来提取局部特征,并使用线性层将卷积特征转换为LLM的token表示。为了降低训练成本,使用了低秩适应(LoRA)技术,只训练少量的适配器参数。损失函数使用了标准的交叉熵损失函数。

📊 实验亮点

该研究在标准HAR基准测试中表现出强大的数据效率和跨数据集迁移能力,尤其是在低数据和少样本设置中。通过使用预训练的LLM骨干网络和LoRA,该方法显著减少了可训练参数的数量和总体训练成本。实验结果表明,该方法能够快速收敛,并在跨数据集迁移任务中优于现有的方法。

🎯 应用场景

该研究成果可广泛应用于智能穿戴设备、智能家居、医疗健康等领域。例如,可以用于监测老年人的日常活动,及时发现异常情况并发出警报;也可以用于运动健康监测,为用户提供个性化的运动建议。此外,该方法还可以应用于工业生产中的设备状态监测,预测设备故障,提高生产效率。该研究为利用预训练模型解决时序数据分析问题提供了新的思路。

📄 摘要(原文)

Human Activity Recognition (HAR) is a core task in pervasive computing systems, where models must operate under strict computational constraints while remaining robust to heterogeneous and evolving deployment conditions. Recent advances based on Transformer architectures have significantly improved recognition performance, but typically rely on task-specific models trained from scratch, resulting in high training cost, large data requirements, and limited adaptability to domain shifts. In this paper, we propose a paradigm shift that reuses large pretrained language models (LLMs) as generic temporal backbones for sensor-based HAR, instead of designing domain-specific Transformers. To bridge the modality gap between inertial time series and language models, we introduce a structured convolutional projection that maps multivariate accelerometer and gyroscope signals into the latent space of the LLM. The pretrained backbone is kept frozen and adapted using parameter-efficient Low-Rank Adaptation (LoRA), drastically reducing the number of trainable parameters and the overall training cost. Through extensive experiments on standard HAR benchmarks, we show that this approach enables rapid convergence, strong data efficiency, and robust cross-dataset transfer, particularly in low-data and few-shot settings. At the same time, our results highlight the complementary roles of convolutional frontends and LLMs, where local invariances are handled at the signal level while long-range temporal dependencies are captured by the pretrained backbone. Overall, this work demonstrates that LLMs can serve as a practical, frugal, and scalable foundation for adaptive HAR systems, opening new directions for reusing foundation models beyond their original language domain.