Uncertainty-aware Test-Time Training (UT$^3$) for Efficient On-the-fly Domain Adaptive Dense Regression

📄 arXiv: 2509.03012v1 📥 PDF

作者: Uddeshya Upadhyay

分类: cs.RO, cs.CV

发布日期: 2025-09-03


💡 一句话要点

提出不确定性感知测试时训练(UT³),加速领域自适应稠密回归,适用于资源受限的机器人应用。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 测试时训练 领域自适应 不确定性估计 自监督学习 稠密回归

📋 核心要点

  1. 现有测试时训练方法在领域偏移下虽能提升性能,但推理时间显著增加,不适用于资源受限的机器人应用。
  2. UT³框架利用不确定性感知的自监督学习,选择性地进行测试时训练,在保证性能的同时降低推理时间。
  3. 该方法在单目深度估计任务上验证了有效性,并允许用户控制测试时训练的应用频率。

📝 摘要(中文)

深度神经网络(DNNs)在自主系统中应用日益广泛,但其泛化能力在领域偏移下表现不佳。适应不断变化的环境是部署在现实世界中的所有自主系统都不可避免地面临的关键安全挑战。最近的测试时训练工作提出了通过使用自监督为每个测试输入优化DNN模型来适应新的测试分布的方法。然而,这些技术导致推理时间急剧增加,因为在基于微调的特征进行最终预测之前,单个测试样本需要多次前向和后向传递(用于测试时训练)。这对于实际机器人应用来说是不可取的,因为这些模型可能部署在具有严格延迟要求的资源受限硬件上。在这项工作中,我们提出了一个新的框架(称为UT³),该框架利用测试时训练来提高在存在连续领域偏移时的性能,同时减少推理时间,使其适用于实际应用。我们的方法提出了一种不确定性感知的自监督任务,用于高效的测试时训练,该任务利用量化的不确定性来选择性地应用训练,从而显着提高推理时间,同时表现与标准测试时训练协议相当。我们提出的协议提供了一个连续设置来识别选定的关键帧,允许最终用户控制应用测试时训练的频率。我们通过单目深度估计这一稠密回归任务证明了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决深度神经网络在面对持续领域偏移时,测试时训练方法推理时间过长的问题。现有的测试时训练方法虽然能提升模型在目标领域的性能,但需要对每个输入样本进行多次前向和反向传播,导致计算成本显著增加,无法满足实时性要求高的机器人应用场景。

核心思路:论文的核心思路是利用模型预测的不确定性来指导测试时训练过程。通过量化模型对当前输入的不确定程度,选择性地对不确定性高的样本进行测试时训练,而对确定性高的样本则直接进行预测。这样可以在保证模型性能的同时,显著减少测试时训练的计算量,从而降低推理时间。

技术框架:UT³框架主要包含以下几个模块:1) 原始DNN模型;2) 不确定性估计模块,用于量化模型预测的不确定性;3) 自监督训练模块,用于对选定的样本进行测试时训练。整体流程是:首先,DNN模型对输入样本进行预测;然后,不确定性估计模块评估预测结果的不确定性;最后,根据不确定性阈值,选择性地对样本进行自监督训练,并更新DNN模型参数。

关键创新:UT³的关键创新在于引入了不确定性感知的自监督学习机制。与传统的测试时训练方法不同,UT³不是对所有样本都进行训练,而是根据模型自身的不确定性进行选择性训练。这种方法能够更有效地利用计算资源,在保证模型性能的同时,显著降低推理时间。

关键设计:UT³的关键设计包括:1) 不确定性度量方式的选择,例如可以使用模型输出的方差或熵来衡量不确定性;2) 不确定性阈值的设定,用于控制测试时训练的应用频率;3) 自监督任务的设计,例如可以使用图像重建、深度一致性等任务来训练模型。此外,论文还提出了一个连续设置,允许用户根据实际需求调整测试时训练的频率。

📊 实验亮点

论文提出的UT³框架在单目深度估计任务上取得了显著的性能提升。实验结果表明,UT³在保证与标准测试时训练协议相当的性能的同时,显著降低了推理时间。此外,该方法还允许用户灵活控制测试时训练的应用频率,从而更好地适应不同的应用场景。

🎯 应用场景

该研究成果可应用于各种需要实时领域自适应的机器人应用,例如自动驾驶、无人机导航、机器人抓取等。通过降低推理时间,UT³框架使得深度神经网络能够部署在资源受限的嵌入式平台上,从而扩展了其在实际场景中的应用范围。此外,该方法还可以应用于其他领域的稠密回归任务,例如医学图像分析、遥感图像处理等。

📄 摘要(原文)

Deep neural networks (DNNs) are increasingly being used in autonomous systems. However, DNNs do not generalize well to domain shift. Adapting to a continuously evolving environment is a safety-critical challenge inevitably faced by all autonomous systems deployed to the real world. Recent work on test-time training proposes methods that adapt to a new test distribution on the fly by optimizing the DNN model for each test input using self-supervision. However, these techniques result in a sharp increase in inference time as multiple forward and backward passes are required for a single test sample (for test-time training) before finally making the prediction based on the fine-tuned features. This is undesirable for real-world robotics applications where these models may be deployed to resource constraint hardware with strong latency requirements. In this work, we propose a new framework (called UT$^3$) that leverages test-time training for improved performance in the presence of continuous domain shift while also decreasing the inference time, making it suitable for real-world applications. Our method proposes an uncertainty-aware self-supervision task for efficient test-time training that leverages the quantified uncertainty to selectively apply the training leading to sharp improvements in the inference time while performing comparably to standard test-time training protocol. Our proposed protocol offers a continuous setting to identify the selected keyframes, allowing the end-user to control how often to apply test-time training. We demonstrate the efficacy of our method on a dense regression task - monocular depth estimation.