Remembering by Reconstructing: Domain Incremental Learning With Test-Time Training on Video Streams

📄 arXiv: 2605.31108v1 📥 PDF

作者: Jonathan Swinnen, Tinne Tuytelaars

分类: cs.CV, cs.LG

发布日期: 2026-05-29


💡 一句话要点

提出基于测试时训练的域增量学习方法,解决视频流中的灾难性遗忘问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 域增量学习 灾难性遗忘 测试时训练 LoRA适配器 视频流 动作识别 语义分割

📋 核心要点

  1. 现有域增量学习方法难以有效避免灾难性遗忘,尤其是在视频流等连续数据中。
  2. 该方法利用LoRA适配器和测试时训练,允许模型遗忘旧域,并在需要时快速重新学习。
  3. 在动作识别和语义分割任务上的实验表明,该方法在域增量学习中具有良好的性能。

📝 摘要(中文)

本文提出了一种新颖的域增量学习方法,旨在随着时间的推移,使模型能够适应不断演变的非平稳数据。与现有方法不同,本文并非试图避免灾难性遗忘,而是允许并利用它。模型结合了主任务头和一个自监督的掩码自编码器(MAE)头。在增量训练期间,学习特定于域的LoRA适配器。每个适配器专门针对其域,自然地导致两个头对其他域的遗忘。在推理时,对自监督MAE头执行在线测试时训练,以识别最匹配当前输入的LoRA,从而使模型能够“记住”该域。该方案特别适用于真实的流数据,例如视频,其中连续样本高度相关且域转移是渐进的。在域增量动作识别和语义分割任务上验证了该方法。

🔬 方法详解

问题定义:传统的域增量学习方法旨在避免灾难性遗忘,即在学习新域时忘记旧域的知识。然而,在视频流等实际应用中,数据分布随时间变化,强制避免遗忘可能导致模型难以适应新域。现有方法通常需要复杂的正则化或知识蒸馏策略,计算成本高昂,且效果有限。

核心思路:本文的核心思路是允许模型发生灾难性遗忘,并通过测试时训练快速恢复相关域的知识。具体来说,模型为每个域学习一个LoRA适配器,这些适配器专门针对各自的域,从而自然地导致对其他域的遗忘。在推理时,通过在测试数据上微调自监督MAE头,选择最合适的LoRA适配器,从而“记住”当前域。

技术框架:该方法包含一个主任务头(例如,用于动作识别或语义分割)和一个自监督的掩码自编码器(MAE)头。在增量训练阶段,为每个新域学习一个LoRA适配器,并将其添加到两个头中。在推理阶段,首先使用MAE头在测试数据上进行测试时训练,以确定最匹配当前输入的LoRA适配器。然后,使用选择的LoRA适配器对主任务头进行推理,得到最终的预测结果。

关键创新:该方法最重要的创新点在于利用测试时训练来动态选择合适的LoRA适配器,从而在避免灾难性遗忘和适应新域之间取得平衡。与传统的域增量学习方法相比,该方法不需要复杂的正则化或知识蒸馏策略,更简单有效。

关键设计:LoRA适配器的选择基于MAE头在测试数据上的重构误差。具体来说,选择使重构误差最小的LoRA适配器。测试时训练使用少量的迭代次数和较小的学习率,以避免过拟合。MAE头的掩码比例和重构目标的选择对最终性能有重要影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在域增量动作识别和语义分割任务上取得了显著的成果。实验结果表明,该方法能够有效地适应新的域,同时保持对旧域的性能。与现有的域增量学习方法相比,该方法在多个数据集上取得了更好的性能,并且具有更快的适应速度。

🎯 应用场景

该研究成果可应用于视频监控、自动驾驶、机器人导航等领域,这些领域的数据通常以视频流的形式出现,并且数据分布随时间变化。通过该方法,模型可以持续适应新的环境和任务,提高系统的鲁棒性和可靠性。未来,该方法可以扩展到其他类型的流数据,例如音频和文本。

📄 摘要(原文)

In this work we introduce a novel approach to domain incremental learning, adapting models over time to evolving, non-stationary data. In contrast to other works, we do not attempt to avoid catastrophic forgetting, but rather allow it and exploit it. Our model combines a main task head with a self-supervised masked autoencoder (MAE) head. We then learn domain-specific LoRA adapters during incremental training. Each adapter specializes to its domain, naturally inducing forgetting on other domains in both heads. At inference, we perform online test-time training on the self-supervised MAE head to identify which LoRAs best matches the current input, so the model can `remember' the domain again. Our scheme is especially well-suited to real-world streaming data, such as video, where consecutive samples are highly correlated and domain shifts are gradual. We demonstrate our method on domain-incremental action recognition and semantic segmentation tasks.