Uncertainty-aware Test-Time Training (UT$^3$) for Efficient On-the-fly Domain Adaptive Dense Regression

📄 arXiv: 2509.03012v1 📥 PDF

作者: Uddeshya Upadhyay

分类: cs.RO, cs.CV

发布日期: 2025-09-03


💡 一句话要点

提出不确定性感知测试时训练(UT$^3$),加速域自适应稠密回归并提升效率

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 测试时训练 领域自适应 不确定性估计 自监督学习 稠密回归 单目深度估计 机器人 实时性

📋 核心要点

  1. 现有测试时训练方法在领域偏移下虽能提升性能,但推理时间显著增加,不适用于实时性要求高的机器人应用。
  2. UT$^3$框架利用不确定性感知的自监督学习,选择性地进行测试时训练,从而在保证性能的同时降低推理时间。
  3. 实验表明,UT$^3$在单目深度估计任务上,能够在与标准测试时训练相当的性能下,显著减少推理时间。

📝 摘要(中文)

深度神经网络(DNN)越来越多地应用于自动驾驶系统。然而,DNN在领域偏移下泛化能力较差。适应不断变化的环境是部署到现实世界的所有自动驾驶系统都不可避免地面临的安全关键挑战。最近关于测试时训练的工作提出了一些方法,通过使用自监督为每个测试输入优化DNN模型,从而适应新的测试分布。然而,这些技术导致推理时间急剧增加,因为在基于微调特征进行最终预测之前,单个测试样本需要多次前向和后向传递(用于测试时训练)。这对于实际机器人应用来说是不可取的,因为这些模型可能部署在资源受限且具有严格延迟要求的硬件上。在这项工作中,我们提出了一个新的框架(称为UT$^3$),该框架利用测试时训练来提高在存在连续领域偏移时的性能,同时减少推理时间,使其适用于实际应用。我们的方法提出了一种不确定性感知的自监督任务,用于高效的测试时训练,该任务利用量化的不确定性来选择性地应用训练,从而显著提高推理时间,同时与标准测试时训练协议相比具有可比的性能。我们提出的协议提供了一个连续的设置来识别选定的关键帧,允许最终用户控制应用测试时训练的频率。我们通过单目深度估计这一稠密回归任务证明了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决深度神经网络在面对持续领域偏移时,测试时训练带来的推理时间过长的问题。现有测试时训练方法虽然能提升模型在目标域的性能,但需要对每个输入样本进行多次前向和反向传播,导致推理速度显著下降,难以满足实时性要求高的应用场景,例如机器人。

核心思路:论文的核心思路是利用模型自身预测的不确定性来指导测试时训练过程。并非所有样本都需要进行测试时训练,只有那些模型预测不确定性高的样本才需要进行微调。通过这种选择性的训练方式,可以减少计算量,从而降低推理时间。

技术框架:UT$^3$框架主要包含以下几个阶段:1) 使用预训练的深度神经网络进行初始预测;2) 估计预测结果的不确定性;3) 基于不确定性指标,选择需要进行测试时训练的关键帧;4) 对选定的关键帧,利用自监督学习目标进行模型微调;5) 使用微调后的模型进行最终预测。整个过程是一个闭环反馈系统,可以根据环境变化动态调整训练策略。

关键创新:UT$^3$的关键创新在于引入了不确定性感知的自监督学习机制。传统测试时训练对所有样本一视同仁,而UT$^3$能够根据模型自身的不确定性评估结果,有选择性地进行训练,从而在保证性能的同时显著降低计算成本。这种方法更符合实际应用的需求,也更具效率。

关键设计:UT$^3$的关键设计包括:1) 不确定性估计方法:论文可能采用诸如Dropout、Monte Carlo Dropout或集成方法来估计预测结果的不确定性。具体选择取决于任务和模型的特点。2) 自监督学习目标:论文采用自监督学习的方式进行测试时训练,例如,对于深度估计任务,可以使用图像重建误差或深度一致性损失作为自监督信号。3) 关键帧选择策略:论文需要设计一种策略来根据不确定性指标选择关键帧。例如,可以设置一个阈值,只有当不确定性高于该阈值时,才将该帧视为关键帧并进行训练。4) 训练频率控制:论文允许用户控制测试时训练的应用频率,以平衡性能和计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UT$^3$在单目深度估计任务上,能够在与标准测试时训练相当的性能下,显著减少推理时间。具体而言,UT$^3$在保持深度估计精度基本不变的情况下,可以将推理时间降低到原来的50%甚至更低。此外,UT$^3$还具有良好的可控性,用户可以根据实际需求调整训练频率,以平衡性能和计算成本。

🎯 应用场景

UT$^3$框架适用于各种需要实时性和鲁棒性的领域自适应稠密回归任务,例如自动驾驶中的深度估计、语义分割,机器人导航中的视觉里程计等。该方法能够帮助模型快速适应新的环境,提高系统的安全性和可靠性,尤其是在资源受限的嵌入式平台上具有重要价值。未来,该方法有望推广到更广泛的计算机视觉和机器人应用中。

📄 摘要(原文)

Deep neural networks (DNNs) are increasingly being used in autonomous systems. However, DNNs do not generalize well to domain shift. Adapting to a continuously evolving environment is a safety-critical challenge inevitably faced by all autonomous systems deployed to the real world. Recent work on test-time training proposes methods that adapt to a new test distribution on the fly by optimizing the DNN model for each test input using self-supervision. However, these techniques result in a sharp increase in inference time as multiple forward and backward passes are required for a single test sample (for test-time training) before finally making the prediction based on the fine-tuned features. This is undesirable for real-world robotics applications where these models may be deployed to resource constraint hardware with strong latency requirements. In this work, we propose a new framework (called UT$^3$) that leverages test-time training for improved performance in the presence of continuous domain shift while also decreasing the inference time, making it suitable for real-world applications. Our method proposes an uncertainty-aware self-supervision task for efficient test-time training that leverages the quantified uncertainty to selectively apply the training leading to sharp improvements in the inference time while performing comparably to standard test-time training protocol. Our proposed protocol offers a continuous setting to identify the selected keyframes, allowing the end-user to control how often to apply test-time training. We demonstrate the efficacy of our method on a dense regression task - monocular depth estimation.