Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

作者: Wenxin Li, Kunyu Peng, Di Wen, Ruiping Liu, Mengfei Duan, Kai Luo, Kailun Yang

分类: cs.CV, cs.LG, cs.RO, eess.IV

发布日期: 2025-09-20

备注: The established benchmark and source code will be made publicly available at https://github.com/mylwx/ActiSeg-NL

🔗 代码/项目: GITHUB

💡 一句话要点

提出ActiSeg-NL基准，研究标签噪声下动作提示视频分割问题，并提出PMHM模块。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频对象分割 动作提示 标签噪声 鲁棒性学习 具身智能

📋 核心要点

现有基于动作的视频分割方法依赖大量标注，易受文本提示和掩码标注噪声影响，缺乏对噪声鲁棒性的研究。
论文提出ActiSeg-NL基准，包含文本和掩码两种噪声，并设计并行掩码头机制（PMHM）以提升模型对噪声的鲁棒性。
实验分析了不同噪声类型下的失败模式，并对比了多种噪声学习策略的性能，揭示了前景-背景权衡现象。

📝 摘要（中文）

具身智能依赖于精确分割交互中涉及的对象。基于动作的视频对象分割通过将分割与动作语义联系起来来解决这个问题，但它依赖于大规模的标注和提示，这些标注和提示成本高昂、不一致且容易出现多模态噪声，例如不精确的掩码和指代歧义。目前，这一挑战尚未被探索。在这项工作中，我们迈出了第一步，研究了标签噪声下的基于动作的视频对象分割，重点关注两种来源：文本提示噪声（类别翻转和类别内名词替换）和掩码标注噪声（扰动的对象边界以模仿不精确的监督）。我们的贡献有三方面。首先，我们为基于动作的视频对象分割任务引入了两种类型的标签噪声。其次，我们构建了第一个标签噪声下的基于动作的视频对象分割基准ActiSeg-NL，并将六种标签噪声学习策略应用于此设置，并建立了在文本、边界和混合噪声下评估它们的协议。第三，我们提供了一个综合分析，将噪声类型与失败模式和鲁棒性增益联系起来，并且我们引入了一个并行掩码头机制（PMHM）来解决掩码标注噪声。定性评估进一步揭示了特征性的失败模式，包括边界泄漏和边界扰动下的错误定位，以及文本翻转下的偶尔身份替换。我们的比较分析表明，不同的学习策略表现出不同的鲁棒性特征，受前景-背景权衡的支配，其中一些实现了平衡的性能，而另一些则以牺牲背景精度为代价优先考虑前景精度。已建立的基准和源代码将在https://github.com/mylwx/ActiSeg-NL上公开发布。

🔬 方法详解

问题定义：现有基于动作的视频对象分割方法依赖于大规模且高质量的标注数据，然而实际应用中，标注数据往往存在噪声，例如文本提示的类别错误或指代不清，以及掩码标注的不精确。这些噪声会严重影响模型的性能和泛化能力，但目前缺乏针对此问题的研究。

核心思路：论文的核心思路是研究标签噪声对基于动作的视频对象分割的影响，并提出相应的解决方案。通过构建包含不同类型噪声的基准数据集，分析噪声对模型性能的影响，并设计新的模型结构来提高模型的鲁棒性。

技术框架：论文主要包含以下几个部分：1) 构建ActiSeg-NL基准数据集，包含文本提示噪声和掩码标注噪声；2) 将现有的标签噪声学习策略应用于ActiSeg-NL基准，并进行评估；3) 提出并行掩码头机制（PMHM）来提高模型对掩码标注噪声的鲁棒性；4) 对实验结果进行分析，揭示不同噪声类型下的失败模式和鲁棒性增益。

关键创新：论文的主要创新点在于：1) 首次研究了标签噪声对基于动作的视频对象分割的影响；2) 构建了ActiSeg-NL基准数据集，为该领域的研究提供了数据基础；3) 提出了并行掩码头机制（PMHM），有效提高了模型对掩码标注噪声的鲁棒性。与现有方法相比，该方法更加关注实际应用中数据噪声的影响，并提出了针对性的解决方案。

关键设计：并行掩码头机制（PMHM）包含多个并行的掩码预测头，每个头都学习不同的掩码表示。通过集成多个头的预测结果，可以减少单个头预测错误的影响，从而提高模型的鲁棒性。具体的实现细节包括：使用多个卷积层和反卷积层来生成掩码预测，使用不同的损失函数来训练不同的头，以及使用加权平均或投票的方式来集成多个头的预测结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的并行掩码头机制（PMHM）在ActiSeg-NL基准上取得了显著的性能提升，尤其是在存在掩码标注噪声的情况下。通过对比不同的标签噪声学习策略，论文揭示了不同策略在前景和背景分割精度上的权衡关系，为实际应用中策略的选择提供了指导。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能监控等领域。通过提高模型在噪声环境下的分割精度，可以提升机器人与环境交互的可靠性，增强自动驾驶系统的安全性，并改善智能监控系统的性能。此外，该研究提出的ActiSeg-NL基准数据集，可以促进相关领域的研究进展。

📄 摘要（原文）

Embodied intelligence relies on accurately segmenting objects actively involved in interactions. Action-based video object segmentation addresses this by linking segmentation with action semantics, but it depends on large-scale annotations and prompts that are costly, inconsistent, and prone to multimodal noise such as imprecise masks and referential ambiguity. To date, this challenge remains unexplored. In this work, we take the first step by studying action-based video object segmentation under label noise, focusing on two sources: textual prompt noise (category flips and within-category noun substitutions) and mask annotation noise (perturbed object boundaries to mimic imprecise supervision). Our contributions are threefold. First, we introduce two types of label noises for the action-based video object segmentation task. Second, we build up the first action-based video object segmentation under a label noise benchmark ActiSeg-NL and adapt six label-noise learning strategies to this setting, and establish protocols for evaluating them under textual, boundary, and mixed noise. Third, we provide a comprehensive analysis linking noise types to failure modes and robustness gains, and we introduce a Parallel Mask Head Mechanism (PMHM) to address mask annotation noise. Qualitative evaluations further reveal characteristic failure modes, including boundary leakage and mislocalization under boundary perturbations, as well as occasional identity substitutions under textual flips. Our comparative analysis reveals that different learning strategies exhibit distinct robustness profiles, governed by a foreground-background trade-off where some achieve balanced performance while others prioritize foreground accuracy at the cost of background precision. The established benchmark and source code will be made publicly available at https://github.com/mylwx/ActiSeg-NL.

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理