DomusFM: A Foundation Model for Smart-Home Sensor Data

📄 arXiv: 2602.01910v1 📥 PDF

作者: Michele Fiori, Gabriele Civitarese, Flora D. Salim, Claudio Bettini

分类: cs.AI

发布日期: 2026-02-02


💡 一句话要点

DomusFM:面向智能家居传感器数据的预训练基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 智能家居 传感器数据 基础模型 自监督学习 对比学习

📋 核心要点

  1. 现有智能家居传感器数据分析方法依赖大量标注数据或无法有效处理二元传感器数据的稀疏性和语义关联。
  2. DomusFM通过自监督双重对比学习,结合语义嵌入和专用编码器,学习智能家居传感器数据的通用表征。
  3. 实验表明,DomusFM在各种下游任务中优于现有方法,即使在少量标注数据下也能保持高性能。

📝 摘要(中文)

本文提出DomusFM,首个专门为智能家居传感器数据设计和预训练的基础模型。现有方法面临诸多限制,例如,监督模型需要大量标注数据,而面向活动识别的基础模型仅关注惯性传感器。基于LLM的方法虽然有所尝试,但依赖自然语言描述或提示,且依赖外部服务或昂贵硬件,因隐私和成本问题在实际场景中不可行。DomusFM采用自监督双重对比学习范式,捕获token级别的语义属性和序列级别的时间依赖性。通过集成轻量级语言模型的语义嵌入和用于时间模式及二元状态的专用编码器,DomusFM学习可泛化的表征,从而迁移到与活动和事件分析相关的跨环境和任务。在七个公共智能家居数据集上的实验表明,DomusFM在不同下游任务上优于现有技术,即使只有5%的标注训练数据也可实现卓越性能。该方法在保持实际部署能力的同时,解决了数据稀缺问题。

🔬 方法详解

问题定义:智能家居传感器数据分析面临数据稀缺和现有模型泛化能力不足的问题。监督学习方法需要大量标注数据,成本高昂。现有基础模型主要针对惯性传感器,无法有效处理智能家居中常见的二元传感器数据的稀疏性、离散性和丰富的语义关联。

核心思路:DomusFM的核心思路是利用自监督学习,从大量未标注的智能家居传感器数据中学习通用的数据表征。通过双重对比学习,模型既能捕获token级别的语义信息,又能学习序列级别的时间依赖关系,从而提高模型的泛化能力。

技术框架:DomusFM的整体框架包括三个主要模块:1) 语义嵌入模块,利用轻量级语言模型提取传感器事件的语义信息;2) 时间模式编码器,用于捕获传感器数据的时间依赖关系;3) 二元状态编码器,专门处理二元传感器数据的状态变化。模型采用双重对比学习范式,分别在token级别和序列级别进行对比学习,从而学习到更丰富的表征。

关键创新:DomusFM的关键创新在于其针对智能家居传感器数据特点设计的自监督学习框架。与现有方法相比,DomusFM无需大量标注数据,能够有效处理二元传感器数据的稀疏性和语义关联,并具有更好的泛化能力。双重对比学习范式是另一个创新点,它能够同时捕获token级别的语义信息和序列级别的时间依赖关系。

关键设计:DomusFM使用轻量级的预训练语言模型(例如DistilBERT)进行语义嵌入。时间模式编码器和二元状态编码器可以使用Transformer或LSTM等结构。双重对比学习的损失函数通常采用InfoNCE损失,用于最大化正样本之间的相似性,最小化负样本之间的相似性。具体的参数设置需要根据数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DomusFM在七个公共智能家居数据集上进行了评估,结果表明,DomusFM在各种下游任务(如活动识别和事件预测)上均优于现有方法。即使只使用5%的标注数据进行微调,DomusFM仍然能够取得卓越的性能。例如,在某个数据集上,DomusFM的F1-score比最佳基线提高了10%以上,证明了其强大的泛化能力和数据效率。

🎯 应用场景

DomusFM在智能家居领域具有广泛的应用前景,例如:活动识别、异常检测、健康监测、老年人照护等。通过分析智能家居传感器数据,DomusFM可以帮助用户更好地了解家庭成员的活动模式和健康状况,并提供个性化的服务和支持。该研究有助于推动智能家居技术的发展,提高人们的生活质量。

📄 摘要(原文)

Smart-home sensor data holds significant potential for several applications, including healthcare monitoring and assistive technologies. Existing approaches, however, face critical limitations. Supervised models require impractical amounts of labeled data. Foundation models for activity recognition focus only on inertial sensors, failing to address the unique characteristics of smart-home binary sensor events: their sparse, discrete nature combined with rich semantic associations. LLM-based approaches, while tested in this domain, still raise several issues regarding the need for natural language descriptions or prompting, and reliance on either external services or expensive hardware, making them infeasible in real-life scenarios due to privacy and cost concerns. We introduce DomusFM, the first foundation model specifically designed and pretrained for smart-home sensor data. DomusFM employs a self-supervised dual contrastive learning paradigm to capture both token-level semantic attributes and sequence-level temporal dependencies. By integrating semantic embeddings from a lightweight language model and specialized encoders for temporal patterns and binary states, DomusFM learns generalizable representations that transfer across environments and tasks related to activity and event analysis. Through leave-one-dataset-out evaluation across seven public smart-home datasets, we demonstrate that DomusFM outperforms state-of-the-art baselines on different downstream tasks, achieving superior performance even with only 5% of labeled training data available for fine-tuning. Our approach addresses data scarcity while maintaining practical deployability for real-world smart-home systems.