ACTRESS: Active Retraining for Semi-supervised Visual Grounding

作者: Weitai Kang, Mengxue Qu, Yunchao Wei, Yan Yan

分类: cs.CV

发布日期: 2024-07-03 (更新: 2024-07-06)

💡 一句话要点

ACTRESS：面向半监督视觉定位的主动重训练方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 视觉定位 主动学习 伪标签 Transformer 重训练 目标检测

📋 核心要点

现有RefTeacher方法与Transformer视觉定位模型不兼容，缺乏置信度，且数据增强导致注意力约束不对齐。
ACTRESS通过主动采样高质量伪标签和选择性重训练，提升半监督视觉定位模型的性能。
实验表明，ACTRESS在常用基准数据集上表现优异，验证了其有效性。

📝 摘要（中文）

半监督视觉定位(SSVG)因其稀疏的标注数据和对多模态理解的需求而面临新的挑战。先前的工作RefTeacher首次尝试通过采用教师-学生框架来提供伪置信度监督和基于注意力的监督来解决这个问题。然而，这种方法与当前最先进的基于Transformer的视觉定位模型不兼容，因为这些模型直接回归结果，而无需区域提议或前景二元分类，因此由于缺乏置信度分数，它们不适合RefTeacher。此外，由于不同的数据增强，教师和学生输入在几何上的差异导致了基于注意力的约束中的自然不对齐。为了建立一个兼容的SSVG框架，本文提出了一种用于半监督视觉定位的主动重训练方法，简称ACTRESS。最初，该模型通过结合一个额外的量化检测头来增强，以暴露其检测置信度。在此基础上，ACTRESS由一个主动采样策略和一个选择性重训练策略组成。主动采样策略通过评估三个关键方面：忠实性、鲁棒性和置信度，迭代地选择高质量的伪标签，从而优化未标记数据的利用率。选择性重训练策略通过定期重新初始化特定参数来重新训练模型，从而促进模型摆脱局部最小值。大量的实验证明了我们的方法在广泛使用的基准数据集上的优越性能。

🔬 方法详解

问题定义：半监督视觉定位任务旨在利用少量标注数据和大量未标注数据训练模型，实现对图像中特定目标区域的定位。现有方法，如RefTeacher，在与基于Transformer的视觉定位模型结合时存在问题。Transformer模型直接回归结果，缺乏置信度分数，导致无法直接应用RefTeacher的伪置信度监督。此外，不同的数据增强方式导致教师和学生模型输入存在几何差异，使得基于注意力的约束产生不对齐现象。

核心思路：ACTRESS的核心思路是通过主动采样策略选择高质量的伪标签，并利用选择性重训练策略优化模型，从而有效利用未标注数据，提升模型性能。主动采样策略旨在选择置信度高、鲁棒性强、忠实于原始数据的伪标签，从而减少噪声数据的干扰。选择性重训练策略通过定期重新初始化部分参数，帮助模型跳出局部最优解，进一步提升泛化能力。

技术框架：ACTRESS框架主要包含三个部分：首先，在原始模型基础上增加一个量化的检测头，用于提供检测置信度。其次，采用主动采样策略，根据置信度、鲁棒性和忠实性三个指标筛选高质量的伪标签。最后，利用选择性重训练策略，定期重新初始化部分参数，并使用筛选后的伪标签进行重训练。

关键创新：ACTRESS的关键创新在于其主动采样和选择性重训练策略。主动采样策略通过综合考虑置信度、鲁棒性和忠实性，有效筛选高质量的伪标签，降低了噪声数据的干扰。选择性重训练策略通过定期重新初始化部分参数，帮助模型跳出局部最优解，提升泛化能力。与现有方法相比，ACTRESS更适用于基于Transformer的视觉定位模型，并能有效利用未标注数据提升模型性能。

关键设计：主动采样策略中，置信度通过量化检测头获得，鲁棒性通过对输入图像进行扰动后预测结果的一致性来衡量，忠实性通过伪标签与原始标注的一致性来评估。选择性重训练策略中，重新初始化的参数通常是与定位相关的参数，例如检测头的参数。损失函数包括标准的定位损失和伪标签损失，伪标签损失只计算在筛选后的高质量伪标签上。

🖼️ 关键图片

📊 实验亮点

ACTRESS在多个视觉定位基准数据集上取得了显著的性能提升。实验结果表明，ACTRESS能够有效利用未标注数据，提升模型的定位精度和泛化能力。相较于现有半监督视觉定位方法，ACTRESS在性能上取得了明显的优势，证明了其有效性和优越性。

🎯 应用场景

ACTRESS方法可应用于智能监控、自动驾驶、机器人导航等领域。在这些场景中，通常存在大量的未标注数据，而标注数据的获取成本较高。ACTRESS能够有效利用这些未标注数据，提升视觉定位模型的性能，从而提高系统的智能化水平和自动化程度。未来，该方法有望在更多实际应用中发挥重要作用。

📄 摘要（原文）

Semi-Supervised Visual Grounding (SSVG) is a new challenge for its sparse labeled data with the need for multimodel understanding. A previous study, RefTeacher, makes the first attempt to tackle this task by adopting the teacher-student framework to provide pseudo confidence supervision and attention-based supervision. However, this approach is incompatible with current state-of-the-art visual grounding models, which follow the Transformer-based pipeline. These pipelines directly regress results without region proposals or foreground binary classification, rendering them unsuitable for fitting in RefTeacher due to the absence of confidence scores. Furthermore, the geometric difference in teacher and student inputs, stemming from different data augmentations, induces natural misalignment in attention-based constraints. To establish a compatible SSVG framework, our paper proposes the ACTive REtraining approach for Semi-Supervised Visual Grounding, abbreviated as ACTRESS. Initially, the model is enhanced by incorporating an additional quantized detection head to expose its detection confidence. Building upon this, ACTRESS consists of an active sampling strategy and a selective retraining strategy. The active sampling strategy iteratively selects high-quality pseudo labels by evaluating three crucial aspects: Faithfulness, Robustness, and Confidence, optimizing the utilization of unlabeled data. The selective retraining strategy retrains the model with periodic re-initialization of specific parameters, facilitating the model's escape from local minima. Extensive experiments demonstrates our superior performance on widely-used benchmark datasets.

ACTRESS: Active Retraining for Semi-supervised Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理