See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

📄 arXiv: 2602.23806v1 📥 PDF

作者: Tianci Tang, Tielong Cai, Hongwei Wang, Gaoang Wang

分类: cs.CV, cs.AI

发布日期: 2026-02-27


💡 一句话要点

提出Sea$^2$,通过个性化VLM引导的智能体实现无监督跨域视觉自适应

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动感知 无监督学习 领域自适应 视觉语言模型 强化学习

📋 核心要点

  1. 现有方法在特定领域微调感知模型,导致灾难性遗忘和高昂的标注成本,限制了模型泛化能力。
  2. Sea$^2$通过训练智能体调整感知模块的部署方式,而非直接修改感知模块,无需下游标签和模型重训练。
  3. 实验表明,Sea$^2$在视觉定位、分割和3D框估计等任务上,显著提升了性能,尤其在ReplicaCAD数据集上。

📝 摘要(中文)

预训练感知模型在通用图像领域表现出色,但在室内场景等新环境中性能显著下降。传统的解决方法是在下游数据上进行微调,但这会导致灾难性遗忘,并需要昂贵的场景特定标注。我们提出了一种范式转变,即Sea$^2$(See, Act, Adapt):与其调整感知模块本身,不如通过智能姿态控制智能体来调整它们的部署方式。Sea$^2$保持所有感知模块冻结,训练期间不需要下游标签,仅使用标量感知反馈来引导智能体朝向信息丰富的视点。具体来说,我们通过一个两阶段训练流程将视觉语言模型(VLM)转换为低级姿态控制器:首先在基于规则的探索轨迹上对其进行微调,系统地探测室内场景,然后通过无监督强化学习来改进策略,该策略从感知模块的输出和置信度构建奖励。与先前将探索与特定模型耦合或收集数据以重新训练它们的主动感知方法不同,Sea$^2$直接利用现成的感知模型来执行各种任务,而无需重新训练。我们在三个视觉感知任务(包括视觉定位、分割和3D框估计)上进行了实验,在ReplicaCAD数据集上分别实现了13.54%,15.92%和27.68%的性能提升。

🔬 方法详解

问题定义:论文旨在解决预训练视觉模型在跨领域应用时性能显著下降的问题,尤其是在室内场景等新环境中。现有方法通常依赖于在目标领域数据上进行微调,但这种方式存在两个主要痛点:一是容易导致灾难性遗忘,即模型忘记了在原始数据集上学习到的知识;二是需要大量的目标领域标注数据,而获取这些标注数据成本高昂。

核心思路:论文的核心思路是“See, Act, Adapt”,即通过训练一个智能体来控制视角,从而使现有的、预训练的感知模型能够更好地适应新的环境。智能体通过观察(See)环境,采取行动(Act)改变视角,并根据感知模型的反馈进行自适应(Adapt),最终找到信息量最大的视角。这种方法避免了直接修改感知模型,从而避免了灾难性遗忘,并且不需要目标领域的标注数据。

技术框架:Sea$^2$的整体框架包含以下几个主要模块:1) 预训练的视觉感知模块(例如,用于视觉定位、分割或3D框估计的模型);2) 一个视觉语言模型(VLM),用于将视觉信息转换为动作指令;3) 一个强化学习智能体,用于学习如何控制视角。训练过程分为两个阶段:第一阶段,使用基于规则的探索策略训练VLM,使其能够系统地探索室内场景;第二阶段,使用无监督强化学习来优化智能体的策略,奖励函数基于感知模块的输出和置信度。

关键创新:Sea$^2$最重要的创新点在于它将主动感知与无监督领域自适应相结合,通过训练一个智能体来控制视角,从而使现有的感知模型能够更好地适应新的环境,而无需进行微调或重新训练。与传统的主动感知方法不同,Sea$^2$不依赖于特定的感知模型,而是可以与各种现成的感知模型一起使用。此外,Sea$^2$使用无监督强化学习来训练智能体,避免了对目标领域标注数据的需求。

关键设计:Sea$^2$的关键设计包括:1) 使用视觉语言模型(VLM)作为低级姿态控制器,将视觉信息转换为动作指令;2) 使用两阶段训练流程,首先使用基于规则的探索策略训练VLM,然后使用无监督强化学习来优化智能体的策略;3) 设计合适的奖励函数,基于感知模块的输出和置信度来指导智能体的学习。奖励函数的设计需要仔细考虑,以确保智能体能够找到信息量最大的视角。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Sea$^2$在三个视觉感知任务上均取得了显著的性能提升。在ReplicaCAD数据集上,视觉定位任务的性能提升了13.54%,分割任务的性能提升了15.92%,3D框估计任务的性能提升了27.68%。这些结果表明,Sea$^2$能够有效地利用现有的感知模型,并通过智能的视角控制来提高其在新的环境中的性能。与直接在目标领域数据上进行微调的方法相比,Sea$^2$避免了灾难性遗忘,并且不需要目标领域的标注数据。

🎯 应用场景

Sea$^2$具有广泛的应用前景,例如在机器人导航、自动驾驶、智能监控等领域。它可以帮助机器人在未知环境中更好地理解和感知周围环境,从而实现更安全、更高效的自主行为。此外,Sea$^2$还可以应用于虚拟现实和增强现实等领域,提升用户在虚拟环境中的沉浸感和交互体验。该研究的未来影响在于推动了无监督领域自适应和主动感知技术的发展,为构建更智能、更自主的机器人系统奠定了基础。

📄 摘要(原文)

Pre-trained perception models excel in generic image domains but degrade significantly in novel environments like indoor scenes. The conventional remedy is fine-tuning on downstream data which incurs catastrophic forgetting of prior knowledge and demands costly, scene-specific annotations. We propose a paradigm shift through Sea$^2$ (See, Act, Adapt): rather than adapting the perception modules themselves, we adapt how they are deployed through an intelligent pose-control agent. Sea$^2$ keeps all perception modules frozen, requiring no downstream labels during training, and uses only scalar perceptual feedback to navigate the agent toward informative viewpoints. Specially, we transform a vision-language model (VLM) into a low-level pose controller through a two-stage training pipeline: first fine-tuning it on rule-based exploration trajectories that systematically probe indoor scenes, and then refining the policy via unsupervised reinforcement learning that constructs rewards from the perception module's outputs and confidence. Unlike prior active perception methods that couple exploration with specific models or collect data for retraining them, Sea$^2$ directly leverages off-the-shelf perception models for various tasks without the need for retraining. We conducted experiments on three visual perception tasks, including visual grounding, segmentation and 3D box estimation, with performance improvements of 13.54%, 15.92% and 27.68% respectively on dataset ReplicaCAD.