ZeroSiam: An Efficient Siamese for Test-Time Entropy Optimization without Collapse
作者: Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi Shen
分类: cs.LG, cs.NI
发布日期: 2025-09-27
💡 一句话要点
提出ZeroSiam,通过Siamese架构和熵优化解决测试时模型坍塌问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 测试时适应 熵最小化 Siamese网络 模型坍塌 非对称学习 视觉适应 语言模型推理
📋 核心要点
- 测试时熵最小化能使模型适应新环境,提升推理能力,但易导致模型坍塌。
- ZeroSiam通过非对称Siamese架构和散度对齐,有效防止模型坍塌并正则化学习信号。
- 实验表明,ZeroSiam在视觉适应和语言模型推理任务中,性能稳定且开销小。
📝 摘要(中文)
本文提出ZeroSiam,一种高效的非对称Siamese架构,专为测试时熵最小化设计。纯粹的熵最小化可能倾向于非泛化的捷径,例如增大logit范数并将所有预测驱动到主导类别以减少熵,从而导致模型坍塌(例如,恒定的one-hot输出)。ZeroSiam通过非对称散度对齐来防止坍塌,这通过可学习的预测器和分类器之前的停止梯度算子来实现。经验和理论证据表明,ZeroSiam不仅可以防止坍塌,还可以吸收和正则化有偏的学习信号,从而在没有发生坍塌时也能提高性能。大量结果表明,ZeroSiam在可忽略的开销下比现有方法更稳定,证明了其在具有挑战性的测试场景和各种模型(包括特别容易发生坍塌的小型模型)上的视觉适应和大型语言模型推理任务中的有效性。
🔬 方法详解
问题定义:测试时熵最小化旨在使模型适应新的、未见过的环境。然而,直接最小化熵容易导致模型坍塌,即模型倾向于输出置信度极高的单类别预测,从而获得极低的熵值,但丧失了泛化能力。现有的方法难以有效防止这种坍塌现象,尤其是在小型模型上更为明显。
核心思路:ZeroSiam的核心思路是利用非对称的Siamese网络结构,通过一个可学习的预测器和一个停止梯度操作符,实现非对称的散度对齐。这种非对称性能够有效地防止模型坍塌,同时还能吸收和正则化有偏的学习信号,从而提高模型的泛化能力。
技术框架:ZeroSiam包含两个分支,一个主分支和一个辅助分支。主分支接收输入数据并进行正常的预测。辅助分支通过一个可学习的预测器对主分支的特征进行预测,然后使用停止梯度操作符阻止梯度从辅助分支流向主分支的分类器。主分支和辅助分支的输出通过散度损失进行对齐,从而实现非对称的散度对齐。
关键创新:ZeroSiam的关键创新在于其非对称的Siamese网络结构和散度对齐方式。传统的Siamese网络通常是对称的,而ZeroSiam的非对称设计能够有效地防止模型坍塌。此外,通过停止梯度操作符,ZeroSiam能够更好地控制信息的流动,从而实现更好的正则化效果。
关键设计:ZeroSiam的关键设计包括:1) 使用可学习的预测器,将主分支的特征映射到与辅助分支相同的空间;2) 使用停止梯度操作符,阻止梯度从辅助分支流向主分支的分类器;3) 使用合适的散度损失函数,例如KL散度或JS散度,来对齐主分支和辅助分支的输出。预测器的具体结构可以根据任务的需要进行选择,例如可以使用MLP或卷积神经网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ZeroSiam在视觉适应和大型语言模型推理任务中均表现出色。在视觉适应任务中,ZeroSiam在多个数据集上优于现有的测试时适应方法,尤其是在小型模型上表现更为突出。例如,在某些数据集上,ZeroSiam的性能提升超过5%。在大型语言模型推理任务中,ZeroSiam也能够有效地提高模型的推理准确率。
🎯 应用场景
ZeroSiam可应用于各种需要模型自适应的场景,例如图像识别、目标检测、语义分割等。尤其适用于资源受限的边缘设备,可以提升模型在未知环境下的鲁棒性和泛化能力。该方法在医疗影像分析、自动驾驶等领域具有潜在的应用价值,能够提高模型在实际应用中的可靠性。
📄 摘要(原文)
Test-time entropy minimization helps adapt a model to novel environments and incentivize its reasoning capability, unleashing the model's potential during inference by allowing it to evolve and improve in real-time using its own predictions, achieving promising performance. However, pure entropy minimization can favor non-generalizable shortcuts, such as inflating the logit norm and driving all predictions to a dominant class to reduce entropy, risking collapsed solutions (e.g., constant one-hot outputs) that trivially minimize the objective without meaningful learning. In this paper, we introduce ZeroSiam, an efficient asymmetric Siamese architecture tailored for test-time entropy minimization. ZeroSiam prevents collapse through asymmetric divergence alignment, which is efficiently achieved by a learnable predictor and a stop-gradient operator before the classifier. We provide empirical and theoretical evidence that ZeroSiam not only prevents collapse solutions, but also absorbs and regularizes biased learning signals, enhancing performance even when no collapse occurs. Despite its simplicity, extensive results show that ZeroSiam performs more stably over prior methods using negligible overhead, demonstrating efficacy on both vision adaptation and large language model reasoning tasks across challenging test scenarios and diverse models, including tiny models that are particularly collapse-prone.