SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

作者: Zechen Li, Shohreh Deldari, Linyao Chen, Hao Xue, Flora D. Salim

分类: cs.CL

发布日期: 2024-10-14 (更新: 2025-08-24)

备注: Accepted by EMNLP 2025 Main Conference

🔗 代码/项目: GITHUB

💡 一句话要点

SensorLLM：通过传感器-语言对齐，赋能大语言模型进行人体活动识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人体活动识别 大语言模型 传感器数据 时间序列分析 传感器-语言对齐

📋 核心要点

现有方法难以让LLM有效处理传感器时间序列数据，主要挑战在于时间序列缺乏语义信息和LLM处理数值输入的局限性。
SensorLLM的核心思想是通过传感器-语言对齐，将传感器数据转换为LLM易于理解的趋势描述，并引入特殊token标记通道边界。
实验结果表明，SensorLLM在人体活动识别任务上达到了与最先进方法相当甚至更优的性能，证明了其有效性和泛化能力。

📝 摘要（中文）

本文提出SensorLLM，一个两阶段框架，使大语言模型(LLMs)能够从传感器时间序列数据中执行人体活动识别(HAR)。尽管LLMs具有强大的推理和泛化能力，但由于时间序列缺乏语义信息、计算约束以及处理数值输入的挑战，它们在运动传感器数据方面的应用仍然不足。SensorLLM通过传感器-语言对齐阶段解决这些限制，该阶段将传感器输入与趋势描述对齐。引入特殊token来标记通道边界。这种对齐使LLMs能够捕获数值变化、通道特定特征和不同持续时间的数据，而无需人工标注。在随后的任务感知微调阶段，我们改进模型以进行HAR分类，实现了与最先进方法相匹配或超过其性能。结果表明，SensorLLM通过人类直观的传感器-语言对齐，发展成为有效的传感器学习器、推理器和分类器，并在不同的HAR数据集上泛化。我们相信这项工作为时间序列和文本对齐的未来研究奠定了基础，为传感器数据分析中的基础模型铺平了道路。代码可在https://github.com/zechenli03/SensorLLM获取。

🔬 方法详解

问题定义：论文旨在解决大语言模型(LLMs)在人体活动识别(HAR)任务中，直接处理传感器时间序列数据时遇到的困难。现有方法通常需要大量人工标注，且难以有效利用LLMs强大的推理和泛化能力。主要痛点在于时间序列数据缺乏语义信息，以及LLMs在处理数值输入方面的局限性。

核心思路：论文的核心思路是通过传感器-语言对齐，将传感器时间序列数据转换为LLMs能够理解的自然语言描述。具体来说，就是将传感器数据中的趋势、变化等信息，用自然语言进行描述，从而为LLMs提供必要的语义信息。这样设计的目的是为了充分利用LLMs的语言理解和推理能力，同时克服其在处理原始数值数据方面的不足。

技术框架：SensorLLM框架包含两个主要阶段：传感器-语言对齐阶段和任务感知微调阶段。在传感器-语言对齐阶段，模型将传感器输入与趋势描述对齐，并引入特殊token来标记通道边界。在任务感知微调阶段，模型针对HAR分类任务进行微调，以优化其性能。整体流程是从原始传感器数据到自然语言描述，再到最终的HAR分类结果。

关键创新：最重要的技术创新点在于传感器-语言对齐方法。该方法能够自动地将传感器数据转换为自然语言描述，无需人工标注。与现有方法相比，该方法能够更好地利用LLMs的语言理解能力，并克服其在处理原始数值数据方面的局限性。此外，引入特殊token来标记通道边界，有助于模型更好地理解多通道传感器数据。

关键设计：在传感器-语言对齐阶段，需要设计合适的prompt模板，将传感器数据转换为自然语言描述。具体来说，可以根据传感器数据的趋势、变化等信息，生成相应的描述语句。例如，如果传感器数据呈现上升趋势，则可以生成“传感器值正在上升”的描述。此外，还需要设计合适的特殊token，用于标记通道边界。这些token可以帮助模型区分不同通道的数据，从而更好地理解多通道传感器数据。在任务感知微调阶段，可以使用交叉熵损失函数来优化模型的分类性能。

🖼️ 关键图片

📊 实验亮点

SensorLLM在人体活动识别任务上取得了显著的成果，性能与最先进的方法相匹配甚至超过了它们。通过传感器-语言对齐，模型能够有效地学习传感器数据的特征，并在不同的HAR数据集上泛化。实验结果表明，SensorLLM能够充分利用LLMs的语言理解和推理能力，从而提高HAR的准确性和效率。

🎯 应用场景

SensorLLM具有广泛的应用前景，例如智能家居、可穿戴设备、医疗健康等领域。它可以用于监测用户的日常活动、健康状况等，并提供个性化的服务。例如，它可以根据用户的活动状态，自动调节家居设备的设置；或者在用户出现异常活动时，及时发出警报。此外，该研究还可以为时间序列和文本对齐的未来研究奠定基础，为传感器数据分析中的基础模型铺平道路。

📄 摘要（原文）

We introduce SensorLLM, a two-stage framework that enables Large Language Models (LLMs) to perform human activity recognition (HAR) from sensor time-series data. Despite their strong reasoning and generalization capabilities, LLMs remain underutilized for motion sensor data due to the lack of semantic context in time-series, computational constraints, and challenges in processing numerical inputs. SensorLLM addresses these limitations through a Sensor-Language Alignment stage, where the model aligns sensor inputs with trend descriptions. Special tokens are introduced to mark channel boundaries. This alignment enables LLMs to capture numerical variations, channel-specific features, and data of varying durations, without requiring human annotations. In the subsequent Task-Aware Tuning stage, we refine the model for HAR classification, achieving performance that matches or surpasses state-of-the-art methods. Our results demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through human-intuitive Sensor-Language Alignment, generalizing across diverse HAR datasets. We believe this work establishes a foundation for future research on time-series and text alignment, paving the way for foundation models in sensor data analysis. Our codes are available at https://github.com/zechenli03/SensorLLM.

SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理