SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

📄 arXiv: 2410.10624v4 📥 PDF

作者: Zechen Li, Shohreh Deldari, Linyao Chen, Hao Xue, Flora D. Salim

分类: cs.CL

发布日期: 2024-10-14 (更新: 2025-08-24)

备注: Accepted by EMNLP 2025 Main Conference

🔗 代码/项目: GITHUB


💡 一句话要点

SensorLLM:通过传感器-语言对齐,赋能大语言模型进行人体活动识别

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 大语言模型 传感器数据 时间序列分析 传感器-语言对齐

📋 核心要点

  1. 现有方法难以让LLM有效处理传感器时间序列数据,主要挑战在于时间序列缺乏语义信息和LLM处理数值输入的局限性。
  2. SensorLLM的核心思想是通过传感器-语言对齐,将传感器数据转换为LLM易于理解的趋势描述,并引入特殊token标记通道边界。
  3. 实验结果表明,SensorLLM在人体活动识别任务上达到了与最先进方法相当甚至更优的性能,证明了其有效性和泛化能力。

📝 摘要(中文)

本文提出SensorLLM,一个两阶段框架,使大语言模型(LLMs)能够从传感器时间序列数据中执行人体活动识别(HAR)。尽管LLMs具有强大的推理和泛化能力,但由于时间序列缺乏语义信息、计算约束以及处理数值输入的挑战,它们在运动传感器数据方面的应用仍然不足。SensorLLM通过传感器-语言对齐阶段解决这些限制,该阶段将传感器输入与趋势描述对齐。引入特殊token来标记通道边界。这种对齐使LLMs能够捕获数值变化、通道特定特征和不同持续时间的数据,而无需人工标注。在随后的任务感知微调阶段,我们改进模型以进行HAR分类,实现了与最先进方法相匹配或超过其性能。结果表明,SensorLLM通过人类直观的传感器-语言对齐,发展成为有效的传感器学习器、推理器和分类器,并在不同的HAR数据集上泛化。我们相信这项工作为时间序列和文本对齐的未来研究奠定了基础,为传感器数据分析中的基础模型铺平了道路。代码可在https://github.com/zechenli03/SensorLLM获取。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)在人体活动识别(HAR)任务中,直接处理传感器时间序列数据时遇到的困难。现有方法通常需要大量人工标注,且难以有效利用LLMs强大的推理和泛化能力。主要痛点在于时间序列数据缺乏语义信息,以及LLMs在处理数值输入方面的局限性。

核心思路:论文的核心思路是通过传感器-语言对齐,将传感器时间序列数据转换为LLMs能够理解的自然语言描述。具体来说,就是将传感器数据中的趋势、变化等信息,用自然语言进行描述,从而为LLMs提供必要的语义信息。这样设计的目的是为了充分利用LLMs的语言理解和推理能力,同时克服其在处理原始数值数据方面的不足。

技术框架:SensorLLM框架包含两个主要阶段:传感器-语言对齐阶段和任务感知微调阶段。在传感器-语言对齐阶段,模型将传感器输入与趋势描述对齐,并引入特殊token来标记通道边界。在任务感知微调阶段,模型针对HAR分类任务进行微调,以优化其性能。整体流程是从原始传感器数据到自然语言描述,再到最终的HAR分类结果。

关键创新:最重要的技术创新点在于传感器-语言对齐方法。该方法能够自动地将传感器数据转换为自然语言描述,无需人工标注。与现有方法相比,该方法能够更好地利用LLMs的语言理解能力,并克服其在处理原始数值数据方面的局限性。此外,引入特殊token来标记通道边界,有助于模型更好地理解多通道传感器数据。

关键设计:在传感器-语言对齐阶段,需要设计合适的prompt模板,将传感器数据转换为自然语言描述。具体来说,可以根据传感器数据的趋势、变化等信息,生成相应的描述语句。例如,如果传感器数据呈现上升趋势,则可以生成“传感器值正在上升”的描述。此外,还需要设计合适的特殊token,用于标记通道边界。这些token可以帮助模型区分不同通道的数据,从而更好地理解多通道传感器数据。在任务感知微调阶段,可以使用交叉熵损失函数来优化模型的分类性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SensorLLM在人体活动识别任务上取得了显著的成果,性能与最先进的方法相匹配甚至超过了它们。通过传感器-语言对齐,模型能够有效地学习传感器数据的特征,并在不同的HAR数据集上泛化。实验结果表明,SensorLLM能够充分利用LLMs的语言理解和推理能力,从而提高HAR的准确性和效率。

🎯 应用场景

SensorLLM具有广泛的应用前景,例如智能家居、可穿戴设备、医疗健康等领域。它可以用于监测用户的日常活动、健康状况等,并提供个性化的服务。例如,它可以根据用户的活动状态,自动调节家居设备的设置;或者在用户出现异常活动时,及时发出警报。此外,该研究还可以为时间序列和文本对齐的未来研究奠定基础,为传感器数据分析中的基础模型铺平道路。

📄 摘要(原文)

We introduce SensorLLM, a two-stage framework that enables Large Language Models (LLMs) to perform human activity recognition (HAR) from sensor time-series data. Despite their strong reasoning and generalization capabilities, LLMs remain underutilized for motion sensor data due to the lack of semantic context in time-series, computational constraints, and challenges in processing numerical inputs. SensorLLM addresses these limitations through a Sensor-Language Alignment stage, where the model aligns sensor inputs with trend descriptions. Special tokens are introduced to mark channel boundaries. This alignment enables LLMs to capture numerical variations, channel-specific features, and data of varying durations, without requiring human annotations. In the subsequent Task-Aware Tuning stage, we refine the model for HAR classification, achieving performance that matches or surpasses state-of-the-art methods. Our results demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through human-intuitive Sensor-Language Alignment, generalizing across diverse HAR datasets. We believe this work establishes a foundation for future research on time-series and text alignment, paving the way for foundation models in sensor data analysis. Our codes are available at https://github.com/zechenli03/SensorLLM.