Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition
作者: Ilker Demirel, Karan Thakkar, Benjamin Elizalde, Miquel Espi Marques, Aditya Sarathy, Yang Bai, Umamahesh Srinivas, Jiajie Xu, Shirley Ren, Jaya Narain
分类: cs.LG
发布日期: 2025-09-12 (更新: 2025-12-19)
备注: NeurIPS Workshop on Learning from Time Series for Health
💡 一句话要点
利用LLM进行活动识别的后期多模态传感器融合
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 活动识别 大型语言模型 零样本学习 传感器数据
📋 核心要点
- 现有活动识别方法在融合多模态传感器数据时,需要大量的对齐训练数据来学习共享嵌入空间,这限制了其在数据稀缺场景下的应用。
- 本文提出利用大型语言模型(LLM)进行后期融合,直接将来自不同模态模型的输出作为LLM的输入,实现零样本或少样本的活动分类。
- 实验结果表明,该方法在Ego4D数据集上实现了显著高于随机水平的零样本和单样本分类F1分数,无需特定任务的训练。
📝 摘要(中文)
传感器数据流为下游应用提供了关于活动和上下文的宝贵信息,但整合互补信息可能具有挑战性。本文展示了大型语言模型(LLM)可用于音频和运动时间序列数据的活动分类的后期融合。我们从Ego4D数据集中整理了一个数据集子集,用于跨不同上下文(例如,家庭活动、体育运动)的多样化活动识别。评估的LLM实现了显著高于随机水平的12类零样本和单样本分类F1分数,且无需特定于任务的训练。通过基于LLM的、来自模态特定模型的融合进行零样本分类,可以实现多模态时间应用,在这种应用中,用于学习共享嵌入空间的对齐训练数据有限。此外,基于LLM的融合可以实现模型部署,而无需额外的内存和计算来支持特定于目标应用的多模态模型。
🔬 方法详解
问题定义:现有的多模态活动识别方法通常需要大量的对齐标注数据来训练一个共享的嵌入空间,以便融合来自不同传感器(如音频和运动传感器)的信息。然而,在许多实际应用场景中,获取足够数量的对齐标注数据是困难的。因此,如何在缺乏大量对齐训练数据的情况下,有效地融合多模态传感器数据进行活动识别是一个关键问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)的强大泛化能力和上下文理解能力,将来自不同模态的预训练模型的输出作为LLM的输入,让LLM学习如何融合这些信息并进行活动分类。这种方法避免了直接训练多模态融合模型,从而降低了对对齐标注数据的需求。
技术框架:该方法的技术框架主要包括以下几个步骤:1) 使用预训练的模态特定模型(例如,用于音频数据的音频分类器和用于运动数据的运动分类器)分别处理来自不同传感器的数据,并提取特征。2) 将这些特征输入到LLM中,LLM根据这些特征进行活动分类。3) 使用提示工程(prompt engineering)来指导LLM进行分类,例如,提供一些关于活动的描述或示例。
关键创新:该方法最重要的技术创新点在于利用LLM进行后期融合,从而实现了零样本或少样本的多模态活动识别。与传统的需要大量对齐训练数据的多模态融合方法相比,该方法具有更强的泛化能力和适应性。
关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断,LLM的选择和提示工程的设计是影响性能的关键因素。此外,如何有效地将来自不同模态的特征输入到LLM中也是一个需要考虑的问题。具体LLM的选择,提示工程的设计,以及特征输入方式等细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Ego4D数据集上,该方法实现了显著高于随机水平的12类零样本和单样本分类F1分数,且无需特定任务的训练。这表明LLM具有强大的多模态融合能力,可以有效地利用来自不同传感器的信息进行活动识别。具体的F1分数和提升幅度未知,但强调了显著高于随机水平。
🎯 应用场景
该研究成果可应用于智能家居、可穿戴设备、机器人等领域。例如,智能家居系统可以利用该方法识别用户的日常活动,从而提供个性化的服务。可穿戴设备可以利用该方法监测用户的运动状态,从而提供运动指导。机器人可以利用该方法理解人类的意图,从而更好地与人类进行交互。该研究有助于推动多模态传感器数据融合技术的发展,并为各种智能应用提供更强大的支持。
📄 摘要(原文)
Sensor data streams provide valuable information around activities and context for downstream applications, though integrating complementary information can be challenging. We show that large language models (LLMs) can be used for late fusion for activity classification from audio and motion time series data. We curated a subset of data for diverse activity recognition across contexts (e.g., household activities, sports) from the Ego4D dataset. Evaluated LLMs achieved 12-class zero- and one-shot classification F1-scores significantly above chance, with no task-specific training. Zero-shot classification via LLM-based fusion from modality-specific models can enable multimodal temporal applications where there is limited aligned training data for learning a shared embedding space. Additionally, LLM-based fusion can enable model deploying without requiring additional memory and computation for targeted application-specific multimodal models.