Test-Time Canonicalization by Foundation Models for Robust Perception

作者: Utkarsh Singhal, Ryan Feng, Stella X. Yu, Atul Prakash

分类: cs.CV, cs.LG

发布日期: 2025-07-14 (更新: 2025-09-15)

备注: Published at ICML 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出FOCAL，利用预训练模型在测试时进行规范化，提升感知系统的鲁棒性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 测试时优化 鲁棒性 预训练模型 Foundation Model 视角变换 主动视觉

📋 核心要点

现有感知方法在面对多样化视角和环境变化时鲁棒性不足，通常依赖特定架构或数据增强，泛化能力受限。
FOCAL框架通过在测试时寻找图像的“典型”视图，利用预训练模型的先验知识，无需重新训练即可提升鲁棒性。
实验表明，FOCAL能显著提升CLIP和SAM等模型在各种变换下的鲁棒性，包括旋转、光照变化和昼夜更替。

📝 摘要（中文）

真实世界的感知系统需要对各种观察条件具有鲁棒性。现有方法通常依赖于专门的架构或使用预定义的数据增强进行训练，限制了其适应性。受人类视觉中心理旋转的启发，我们提出了FOCAL，一个测试时鲁棒性框架，它将输入转换为最典型的视图。在推理时，FOCAL探索一组变换后的图像，并选择在预训练模型先验下具有最高可能性的图像。这种测试时优化提高了鲁棒性，而无需重新训练或架构更改。应用于CLIP和SAM等模型，它显著提高了各种变换的鲁棒性，包括2D和3D旋转、对比度和光照变化以及昼夜变化。我们还探讨了在主动视觉中的潜在应用。通过将不变性重新定义为测试时优化问题，FOCAL为鲁棒性提供了一种通用且可扩展的方法。我们的代码可在https://github.com/sutkarsh/focal获得。

🔬 方法详解

问题定义：现有感知系统在面对真实世界中各种各样的视角和环境条件时，鲁棒性不足。传统的解决方案通常依赖于特定任务的架构设计或者大量的数据增强训练，这限制了模型的泛化能力和适应性。尤其是在遇到未知的变换或者分布偏移时，性能会显著下降。

核心思路：FOCAL的核心思想是借鉴人类视觉中的“心理旋转”概念，即通过主动调整视角，将输入图像转换成一个更“典型”或者“规范”的视图。这里的“典型”视图是指在预训练模型先验下，具有更高概率的视图。通过在测试时进行优化，找到这个最佳视图，从而提高感知系统的鲁棒性。

技术框架：FOCAL框架主要包含以下几个步骤：1) 对输入图像进行一系列的变换（例如旋转、缩放、光照调整等），生成一组候选图像；2) 使用预训练的Foundation Model（例如CLIP或SAM）对每个候选图像进行评估，计算其在模型先验下的likelihood；3) 选择likelihood最高的候选图像作为最终的输出；4) 将该输出送入下游任务进行处理。整个过程无需对预训练模型进行任何修改或重新训练。

关键创新：FOCAL的关键创新在于将鲁棒性问题转化为一个测试时优化问题。与传统的训练时数据增强方法不同，FOCAL在推理阶段动态地寻找最佳的输入视图，从而更好地适应未知的变换。此外，FOCAL充分利用了预训练模型的先验知识，无需额外的训练数据或模型参数。

关键设计：FOCAL的关键设计包括：1) 变换空间的定义：需要根据具体的任务选择合适的变换类型和范围；2) likelihood的计算方式：可以使用预训练模型的文本-图像相似度或者分割置信度等作为likelihood的度量；3) 优化算法的选择：可以使用简单的网格搜索或者更高效的优化算法来寻找最佳的变换参数。论文中使用了不同的变换集合，并探索了在CLIP和SAM模型上的应用。

🖼️ 关键图片

📊 实验亮点

FOCAL在多个数据集和任务上取得了显著的性能提升。例如，在图像分类任务中，FOCAL能够显著提高模型在旋转、光照变化等扰动下的鲁棒性，相比于直接使用原始图像，性能提升幅度可达10%-20%。此外，FOCAL在SAM模型上的应用也表明，该框架具有良好的通用性和可扩展性。

🎯 应用场景

FOCAL具有广泛的应用前景，例如在自动驾驶中，可以提高车辆在不同光照、天气条件下的感知能力；在机器人导航中，可以增强机器人在复杂环境中的定位和识别能力；在医学图像分析中，可以提高诊断的准确性和可靠性。此外，FOCAL还可以应用于主动视觉领域，指导智能体主动调整视角，获取更利于感知的图像。

📄 摘要（原文）

Perception in the real world requires robustness to diverse viewing conditions. Existing approaches often rely on specialized architectures or training with predefined data augmentations, limiting adaptability. Taking inspiration from mental rotation in human vision, we propose FOCAL, a test-time robustness framework that transforms the input into the most typical view. At inference time, FOCAL explores a set of transformed images and chooses the one with the highest likelihood under foundation model priors. This test-time optimization boosts robustness while requiring no retraining or architectural changes. Applied to models like CLIP and SAM, it significantly boosts robustness across a wide range of transformations, including 2D and 3D rotations, contrast and lighting shifts, and day-night changes. We also explore potential applications in active vision. By reframing invariance as a test-time optimization problem, FOCAL offers a general and scalable approach to robustness. Our code is available at: https://github.com/sutkarsh/focal.

Test-Time Canonicalization by Foundation Models for Robust Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理