Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion
作者: Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz
分类: cs.AI
发布日期: 2025-01-13
💡 一句话要点
提出基于文本嵌入反演的开放词汇活动识别框架OV-HAR,无需大型语言模型。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇活动识别 文本嵌入反演 传感器数据 自然语言处理 人类活动识别
📋 核心要点
- 传统HAR方法依赖预定义的活动类别,无法识别训练集中未出现的活动。
- OV-HAR将活动转换为自然语言描述,通过嵌入反演实现开放词汇识别,无需大型LLM。
- 实验证明OV-HAR在视觉、IMU和压力传感器等多种模态上具有良好的泛化能力。
📝 摘要(中文)
传统的人类活动识别(HAR)依赖于训练分类器来预测离散的活动类别,这固有地限制了识别范围,使其只能识别训练集中明确存在的活动。当遇到未见过的活动时,这些分类器会不可避免地失效,给出零概率。我们提出了开放词汇HAR(OV-HAR),该框架通过首先将每个活动转换为自然语言,并将其分解为一系列基本动作来克服这一限制。然后,将此描述性文本编码为固定大小的嵌入。该模型经过训练以回归该嵌入,随后使用预训练的嵌入反演模型将其解码回自然语言。与其他依赖于自回归大型语言模型(LLM)作为核心的工作不同,OV-HAR在没有此类模型的计算开销的情况下实现了开放词汇识别。生成的文本可以使用LLM提示工程转换为单个活动类别。我们已经在不同的模态上评估了我们的方法,包括视觉(姿势)、IMU和压力传感器,证明了在未见过的活动和模态上的鲁棒泛化能力,提供了一种与当代分类器根本不同的范例。
🔬 方法详解
问题定义:传统人类活动识别(HAR)方法依赖于预先定义的活动类别,因此无法识别训练集中未出现的活动。当遇到新的、未知的活动时,这些方法会失效,无法给出合理的预测。现有方法的痛点在于其封闭的词汇表,限制了其泛化能力。
核心思路:OV-HAR的核心思路是将活动表示为自然语言描述,从而实现开放词汇识别。通过将活动分解为基本动作序列,并将其转换为文本描述,模型可以学习活动与文本嵌入之间的映射关系。这种方法允许模型识别和理解未在训练集中明确定义的活动。
技术框架:OV-HAR框架包含以下主要模块:1) 活动描述生成:将传感器数据(例如,姿势、IMU数据)转换为自然语言描述。2) 文本编码:使用文本编码器将活动描述转换为固定大小的嵌入向量。3) 嵌入回归:训练模型以回归活动描述的嵌入向量。4) 嵌入反演:使用预训练的嵌入反演模型将嵌入向量解码回自然语言描述。5) 活动分类(可选):使用LLM提示工程将生成的文本描述转换为单个活动类别。
关键创新:OV-HAR最重要的技术创新点在于其使用文本嵌入反演来实现开放词汇活动识别,而无需依赖计算成本高昂的大型语言模型。与传统的基于分类器的方法相比,OV-HAR能够识别和理解未在训练集中明确定义的活动,从而显著提高了泛化能力。
关键设计:OV-HAR的关键设计包括:1) 使用预训练的文本编码器(例如,Sentence-BERT)来生成活动描述的嵌入向量。2) 使用预训练的嵌入反演模型(例如,基于Transformer的模型)将嵌入向量解码回自然语言描述。3) 使用均方误差(MSE)损失函数来训练模型以回归活动描述的嵌入向量。4) 通过LLM prompt engineering将生成的文本描述转换为单个活动类别。
🖼️ 关键图片
📊 实验亮点
该研究在视觉(姿势)、IMU和压力传感器等多种模态上进行了评估,证明了OV-HAR在未见过的活动和模态上的鲁棒泛化能力。与传统的基于分类器的方法相比,OV-HAR能够识别和理解未在训练集中明确定义的活动,从而显著提高了泛化能力。具体性能数据未知,但摘要强调了其在不同模态上的鲁棒性。
🎯 应用场景
OV-HAR可应用于智能家居、健康监测、人机交互等领域。例如,它可以用于识别老年人的日常活动,从而提供个性化的健康建议和安全保障。此外,OV-HAR还可以用于机器人导航和任务规划,使机器人能够理解和执行复杂的指令。
📄 摘要(原文)
Conventional human activity recognition (HAR) relies on classifiers trained to predict discrete activity classes, inherently limiting recognition to activities explicitly present in the training set. Such classifiers would invariably fail, putting zero likelihood, when encountering unseen activities. We propose Open Vocabulary HAR (OV-HAR), a framework that overcomes this limitation by first converting each activity into natural language and breaking it into a sequence of elementary motions. This descriptive text is then encoded into a fixed-size embedding. The model is trained to regress this embedding, which is subsequently decoded back into natural language using a pre-trained embedding inversion model. Unlike other works that rely on auto-regressive large language models (LLMs) at their core, OV-HAR achieves open vocabulary recognition without the computational overhead of such models. The generated text can be transformed into a single activity class using LLM prompt engineering. We have evaluated our approach on different modalities, including vision (pose), IMU, and pressure sensors, demonstrating robust generalization across unseen activities and modalities, offering a fundamentally different paradigm from contemporary classifiers.