DETACH : Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning

📄 arXiv: 2512.20409v1 📥 PDF

作者: Junho Yoon, Jaemo Jung, Hyunju Kim, Dongman Lee

分类: cs.CV, cs.AI

发布日期: 2025-12-23


💡 一句话要点

提出DETACH框架,通过解耦时空对齐解决外中心视频与环境传感器融合问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 外中心视频 环境传感器 时空对齐 解耦学习 对比学习

📋 核心要点

  1. 现有方法难以捕捉外中心视频与环境传感器融合中的局部细节和空间语义信息。
  2. DETACH框架通过解耦时空特征,并利用在线聚类发现传感器-空间特征,实现上下文感知的对齐。
  3. 在Opportunity++和HWU-USP数据集上的实验表明,DETACH显著优于已有的基线方法。

📝 摘要(中文)

将以自我为中心的视频与可穿戴传感器对齐在人体行为识别中展现了潜力,但面临用户不适、隐私顾虑和可扩展性等实际限制。本文探索了外中心视频与环境传感器作为一种非侵入式、可扩展的替代方案。以往的自我中心-可穿戴工作主要采用全局对齐,将整个序列编码为统一的表示,但由于两个问题,这种方法在外中心-环境设置中失效:(P1)无法捕捉细微运动等局部细节,以及(P2)过度依赖模态不变的时间模式,导致在具有相似时间模式但空间语义上下文不同的动作之间产生错位。为了解决这些问题,我们提出了DETACH,一个解耦的时空框架。这种显式解耦保留了局部细节,而我们通过在线聚类发现的新型传感器-空间特征为上下文感知的对齐提供了语义基础。为了对齐解耦的特征,我们的两阶段方法通过相互监督建立空间对应关系,然后通过空间-时间加权对比损失执行时间对齐,该损失自适应地处理简单负样本、困难负样本和假负样本。在Opportunity++和HWU-USP数据集上进行的下游任务的综合实验表明,与调整后的自我中心-可穿戴基线相比,性能有了显著提高。

🔬 方法详解

问题定义:论文旨在解决外中心视频与环境传感器融合中的时空对齐问题。现有方法,特别是那些为自我中心视频和可穿戴传感器设计的全局对齐方法,无法有效处理外中心视角下动作的局部细节,并且过度依赖时间模式,导致在不同空间语义上下文但具有相似时间模式的动作之间产生错位。

核心思路:DETACH的核心思路是将时空对齐问题分解为空间对齐和时间对齐两个阶段,并显式地保留局部细节。通过在线聚类发现传感器-空间特征,为上下文感知的对齐提供语义基础。这种解耦的方式允许模型更关注局部运动和空间关系,从而提高对齐的准确性。

技术框架:DETACH框架包含两个主要阶段:空间对齐和时间对齐。首先,通过在线聚类提取传感器-空间特征,这些特征捕捉了环境传感器的空间布局信息。然后,利用互监督学习建立视频帧和传感器特征之间的空间对应关系。最后,使用空间-时间加权对比损失进行时间对齐,该损失函数能够自适应地处理不同难度的负样本,从而提高时间对齐的鲁棒性。

关键创新:DETACH的关键创新在于其解耦的时空对齐方法和自适应的对比损失函数。与以往的全局对齐方法不同,DETACH显式地保留了局部细节,并通过传感器-空间特征引入了空间语义信息。自适应对比损失函数能够有效区分不同难度的负样本,从而提高时间对齐的准确性。

关键设计:DETACH使用在线聚类算法(具体算法未知)提取传感器-空间特征。互监督学习通过最小化视频帧特征和传感器特征之间的距离来建立空间对应关系。空间-时间加权对比损失函数的设计考虑了不同负样本的难度,并为每个负样本分配不同的权重。损失函数的具体形式未知,但其目标是拉近正样本对的距离,推远负样本对的距离,并根据负样本的难度调整推远的力度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DETACH在Opportunity++和HWU-USP数据集上进行了评估,实验结果表明,DETACH显著优于已有的基线方法。具体的性能提升数据未知,但摘要中提到是“substantial improvements”,表明DETACH在时空对齐任务上取得了显著的进展。

🎯 应用场景

DETACH框架可应用于智能家居、智慧医疗、工业自动化等领域。例如,在智能家居中,它可以将摄像头捕捉到的用户行为与环境传感器数据相结合,实现更智能的家居控制和安全监控。在智慧医疗中,它可以用于监测患者的日常活动和健康状况,为医生提供更全面的诊断信息。在工业自动化中,它可以用于监测工人的操作行为和设备状态,提高生产效率和安全性。

📄 摘要(原文)

Aligning egocentric video with wearable sensors have shown promise for human action recognition, but face practical limitations in user discomfort, privacy concerns, and scalability. We explore exocentric video with ambient sensors as a non-intrusive, scalable alternative. While prior egocentric-wearable works predominantly adopt Global Alignment by encoding entire sequences into unified representations, this approach fails in exocentric-ambient settings due to two problems: (P1) inability to capture local details such as subtle motions, and (P2) over-reliance on modality-invariant temporal patterns, causing misalignment between actions sharing similar temporal patterns with different spatio-semantic contexts. To resolve these problems, we propose DETACH, a decomposed spatio-temporal framework. This explicit decomposition preserves local details, while our novel sensor-spatial features discovered via online clustering provide semantic grounding for context-aware alignment. To align the decomposed features, our two-stage approach establishes spatial correspondence through mutual supervision, then performs temporal alignment via a spatial-temporal weighted contrastive loss that adaptively handles easy negatives, hard negatives, and false negatives. Comprehensive experiments with downstream tasks on Opportunity++ and HWU-USP datasets demonstrate substantial improvements over adapted egocentric-wearable baselines.