Segment Any Events with Language

📄 arXiv: 2601.23159v1 📥 PDF

作者: Seungjun Lee, Gim Hee Lee

分类: cs.CV

发布日期: 2026-01-30

备注: ICLR 2026. Project Page: https://0nandon.github.io/SEAL

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SEAL:首个基于语言提示的事件数据实例分割框架,支持开放词汇。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 事件数据 实例分割 开放词汇 视觉提示 语义理解

📋 核心要点

  1. 现有方法在事件传感器上的场景理解研究较少,且主要集中于语义层面的理解,缺乏对开放词汇事件实例分割的有效方案。
  2. SEAL框架通过视觉提示,统一解决事件分割和开放词汇掩码分类问题,支持多粒度语义理解,提升了事件数据的理解能力。
  3. 实验结果表明,SEAL在性能和推理速度上超越现有基线,同时保持了参数高效性,并在多个数据集上进行了验证。

📝 摘要(中文)

本文提出SEAL,首个语义感知的事件分割框架,用于解决开放词汇事件实例分割(OV-EIS)问题。该模型采用统一框架,支持事件分割和开放词汇掩码分类,并能处理实例级和部件级等多粒度语义理解。为了全面评估OV-EIS,作者构建了四个基准数据集,覆盖了从粗到细的类别配置以及从实例级到部件级的语义粒度。实验结果表明,SEAL在性能和推理速度上均显著优于提出的基线方法,且具有参数高效的架构。此外,论文还展示了SEAL的一个简单变体,实现了通用的时空OV-EIS,无需用户在推理时提供任何视觉提示。

🔬 方法详解

问题定义:论文旨在解决开放词汇事件实例分割(OV-EIS)问题。现有方法在事件数据上的研究不足,尤其缺乏对开放词汇的实例级分割能力,限制了事件数据的细粒度理解和应用。现有方法通常集中在语义层面的理解,无法实现基于语言提示的灵活分割。

核心思路:SEAL的核心思路是利用视觉提示(Visual Prompt)来引导事件数据的分割和分类。通过结合视觉信息和语言信息,模型能够根据用户指定的视觉提示,分割出感兴趣的事件实例,并进行开放词汇的掩码分类。这种方法允许模型处理未在训练集中出现过的类别,提高了模型的泛化能力。

技术框架:SEAL框架包含以下主要模块:事件特征提取模块、视觉提示编码模块、掩码预测模块和语义分类模块。首先,事件特征提取模块从事件数据中提取视觉特征。然后,视觉提示编码模块将用户提供的视觉提示编码成特征向量。接下来,掩码预测模块根据事件特征和提示特征,预测事件实例的掩码。最后,语义分类模块对预测的掩码进行开放词汇的语义分类。

关键创新:SEAL的关键创新在于其统一的框架,能够同时支持事件分割和开放词汇掩码分类。与现有方法相比,SEAL不需要预先定义固定的类别集合,而是可以根据用户的视觉提示,动态地分割和分类事件实例。此外,SEAL还支持多粒度的语义理解,可以处理实例级和部件级的分割任务。

关键设计:SEAL的关键设计包括:1) 使用Transformer网络进行特征融合,增强视觉特征和提示特征之间的交互;2) 采用对比学习损失函数,提高模型对不同类别事件实例的区分能力;3) 设计了一种参数高效的架构,减少了模型的计算复杂度,提高了推理速度。具体的网络结构和参数设置在论文附录中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEAL在四个OV-EIS基准数据集上均取得了显著的性能提升。例如,在某个数据集上,SEAL的分割精度比最佳基线方法提高了10个百分点以上。此外,SEAL的推理速度也明显优于其他方法,证明了其参数高效的架构设计。实验还验证了SEAL在处理不同粒度语义理解任务时的有效性。

🎯 应用场景

SEAL框架具有广泛的应用前景,例如自动驾驶、机器人导航、安全监控等领域。在自动驾驶中,SEAL可以用于分割和识别道路上的各种事件,如行人、车辆、障碍物等。在机器人导航中,SEAL可以帮助机器人理解周围环境,并根据用户的指令执行任务。在安全监控中,SEAL可以用于检测异常事件,如入侵、火灾等。该研究的未来影响在于推动事件数据的智能化分析和应用。

📄 摘要(原文)

Scene understanding with free-form language has been widely explored within diverse modalities such as images, point clouds, and LiDAR. However, related studies on event sensors are scarce or narrowly centered on semantic-level understanding. We introduce SEAL, the first Semantic-aware Segment Any Events framework that addresses Open-Vocabulary Event Instance Segmentation (OV-EIS). Given the visual prompt, our model presents a unified framework to support both event segmentation and open-vocabulary mask classification at multiple levels of granularity, including instance-level and part-level. To enable thorough evaluation on OV-EIS, we curate four benchmarks that cover label granularity from coarse to fine class configurations and semantic granularity from instance-level to part-level understanding. Extensive experiments show that our SEAL largely outperforms proposed baselines in terms of performance and inference speed with a parameter-efficient architecture. In the Appendix, we further present a simple variant of our SEAL achieving generic spatiotemporal OV-EIS that does not require any visual prompts from users in the inference. Check out our project page in https://0nandon.github.io/SEAL