Remembering by Reconstructing: Domain Incremental Learning With Test-Time Training on Video Streams

作者: Jonathan Swinnen, Tinne Tuytelaars

分类: cs.CV, cs.LG

发布日期: 2026-05-29

💡 一句话要点

提出基于测试时训练的域增量学习方法，解决视频流中的灾难性遗忘问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 域增量学习 灾难性遗忘 测试时训练 LoRA适配器 视频流 动作识别 语义分割

📋 核心要点

现有域增量学习方法难以有效避免灾难性遗忘，尤其是在视频流等连续数据中。
该方法利用LoRA适配器和测试时训练，允许模型遗忘旧域，并在需要时快速重新学习。
在动作识别和语义分割任务上的实验表明，该方法在域增量学习中具有良好的性能。

📝 摘要（中文）

本文提出了一种新颖的域增量学习方法，旨在随着时间的推移，使模型能够适应不断演变的非平稳数据。与现有方法不同，本文并非试图避免灾难性遗忘，而是允许并利用它。模型结合了主任务头和一个自监督的掩码自编码器（MAE）头。在增量训练期间，学习特定于域的LoRA适配器。每个适配器专门针对其域，自然地导致两个头对其他域的遗忘。在推理时，对自监督MAE头执行在线测试时训练，以识别最匹配当前输入的LoRA，从而使模型能够“记住”该域。该方案特别适用于真实的流数据，例如视频，其中连续样本高度相关且域转移是渐进的。在域增量动作识别和语义分割任务上验证了该方法。

🔬 方法详解

问题定义：传统的域增量学习方法旨在避免灾难性遗忘，即在学习新域时忘记旧域的知识。然而，在视频流等实际应用中，数据分布随时间变化，强制避免遗忘可能导致模型难以适应新域。现有方法通常需要复杂的正则化或知识蒸馏策略，计算成本高昂，且效果有限。

核心思路：本文的核心思路是允许模型发生灾难性遗忘，并通过测试时训练快速恢复相关域的知识。具体来说，模型为每个域学习一个LoRA适配器，这些适配器专门针对各自的域，从而自然地导致对其他域的遗忘。在推理时，通过在测试数据上微调自监督MAE头，选择最合适的LoRA适配器，从而“记住”当前域。

技术框架：该方法包含一个主任务头（例如，用于动作识别或语义分割）和一个自监督的掩码自编码器（MAE）头。在增量训练阶段，为每个新域学习一个LoRA适配器，并将其添加到两个头中。在推理阶段，首先使用MAE头在测试数据上进行测试时训练，以确定最匹配当前输入的LoRA适配器。然后，使用选择的LoRA适配器对主任务头进行推理，得到最终的预测结果。

关键创新：该方法最重要的创新点在于利用测试时训练来动态选择合适的LoRA适配器，从而在避免灾难性遗忘和适应新域之间取得平衡。与传统的域增量学习方法相比，该方法不需要复杂的正则化或知识蒸馏策略，更简单有效。

关键设计：LoRA适配器的选择基于MAE头在测试数据上的重构误差。具体来说，选择使重构误差最小的LoRA适配器。测试时训练使用少量的迭代次数和较小的学习率，以避免过拟合。MAE头的掩码比例和重构目标的选择对最终性能有重要影响。

🖼️ 关键图片

📊 实验亮点

该方法在域增量动作识别和语义分割任务上取得了显著的成果。实验结果表明，该方法能够有效地适应新的域，同时保持对旧域的性能。与现有的域增量学习方法相比，该方法在多个数据集上取得了更好的性能，并且具有更快的适应速度。

🎯 应用场景

该研究成果可应用于视频监控、自动驾驶、机器人导航等领域，这些领域的数据通常以视频流的形式出现，并且数据分布随时间变化。通过该方法，模型可以持续适应新的环境和任务，提高系统的鲁棒性和可靠性。未来，该方法可以扩展到其他类型的流数据，例如音频和文本。

📄 摘要（原文）

In this work we introduce a novel approach to domain incremental learning, adapting models over time to evolving, non-stationary data. In contrast to other works, we do not attempt to avoid catastrophic forgetting, but rather allow it and exploit it. Our model combines a main task head with a self-supervised masked autoencoder (MAE) head. We then learn domain-specific LoRA adapters during incremental training. Each adapter specializes to its domain, naturally inducing forgetting on other domains in both heads. At inference, we perform online test-time training on the self-supervised MAE head to identify which LoRAs best matches the current input, so the model can `remember' the domain again. Our scheme is especially well-suited to real-world streaming data, such as video, where consecutive samples are highly correlated and domain shifts are gradual. We demonstrate our method on domain-incremental action recognition and semantic segmentation tasks.

Remembering by Reconstructing: Domain Incremental Learning With Test-Time Training on Video Streams

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理