T-REN: Learning Text-Aligned Region Tokens Improves Dense Vision-Language Alignment and Scalability
作者: Savya Khosla, Sethuraman T, Aryan Chadha, Alex Schwing, Derek Hoiem
分类: cs.CV
发布日期: 2026-04-20
🔗 代码/项目: GITHUB
💡 一句话要点
T-REN通过文本对齐区域令牌提升密集视觉-语言对齐和可扩展性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 视觉-语言对齐 区域令牌 开放词汇语义分割 视频理解 跨模态检索
📋 核心要点
- 现有视觉-语言模型在密集视觉特征与语言的对齐方面存在不足,影响了开放词汇语义分割等任务。
- T-REN通过学习文本对齐的区域令牌,将视觉数据映射到紧凑的区域级表示,从而提升对齐效果。
- 实验表明,T-REN在多个视觉-语言任务上显著提升了性能,同时大幅降低了令牌数量,提高了可扩展性。
📝 摘要(中文)
本文提出了一种名为T-REN(Text-aligned Region Encoder Network)的高效编码器,旨在解决视觉-语言编码器在两个核心方面的局限性:一是语言和密集视觉特征之间的弱对齐,这会影响开放词汇语义分割等任务;二是细粒度视觉表示的高令牌计数,这限制了其在长视频上的可扩展性。T-REN将视觉数据映射到一组紧凑的、文本对齐的区域级表示(或区域令牌)。它通过在冻结的视觉骨干网络之上添加一个轻量级网络来实现这一点,该网络经过训练,可以将每个语义区域内的patch级表示池化为区域令牌,并将它们与区域级文本注释对齐。与视觉-语言骨干网络相比,该设计仅增加了3.7%的参数,却实现了更强的密集跨模态理解,同时将令牌计数减少了几个数量级。具体而言,T-REN在ADE20K开放词汇分割上实现了+5.9 mIoU,在COCO对象级文本-图像检索上实现了+18.4%的召回率,在Ego4D视频对象定位上实现了+15.6%的召回率,在VSPW视频场景解析上实现了+17.6%的mIoU,同时与基于patch的视觉-语言骨干网络相比,图像的令牌计数减少了24倍以上,视频的令牌计数减少了187倍以上。代码和模型可在https://github.com/savya08/T-REN获取。
🔬 方法详解
问题定义:现有视觉-语言编码器在处理密集视觉信息时,存在两个主要问题:一是视觉特征与语言特征的对齐不够精确,导致在开放词汇语义分割等任务中表现不佳;二是细粒度视觉表示需要大量的tokens,限制了模型在处理长视频时的可扩展性。现有方法通常直接使用patch级别的特征,token数量巨大,计算成本高昂。
核心思路:T-REN的核心思路是将视觉数据编码为一组紧凑的、文本对齐的区域级表示(区域令牌)。通过学习将patch级别的特征聚合到语义区域级别的特征,并与对应的文本描述对齐,从而实现更精确的跨模态理解,并显著减少token数量。
技术框架:T-REN的整体架构包括一个冻结的视觉骨干网络和一个轻量级的区域编码器。视觉骨干网络负责提取patch级别的视觉特征。区域编码器则负责将这些patch特征池化到各个语义区域中,生成区域令牌,并与区域级别的文本描述对齐。训练过程中,视觉骨干网络参数固定,只训练区域编码器。
关键创新:T-REN的关键创新在于学习文本对齐的区域令牌。与直接使用patch级别的特征相比,区域令牌能够更有效地表示图像或视频中的语义信息,并与文本描述建立更强的关联。此外,通过减少token数量,T-REN显著提高了模型的可扩展性,使其能够处理更长的视频序列。
关键设计:T-REN的关键设计包括:1) 使用轻量级的网络结构作为区域编码器,以减少额外的计算负担;2) 设计合适的损失函数,鼓励区域令牌与对应的文本描述对齐;3) 使用预训练的视觉骨干网络,以获得更好的视觉特征表示;4) 通过实验选择合适的池化策略,将patch特征聚合到区域级别。
🖼️ 关键图片
📊 实验亮点
T-REN在多个视觉-语言任务上取得了显著的性能提升。在ADE20K开放词汇分割上,T-REN实现了+5.9 mIoU的提升;在COCO对象级文本-图像检索上,实现了+18.4%的召回率提升;在Ego4D视频对象定位上,实现了+15.6%的召回率提升;在VSPW视频场景解析上,实现了+17.6%的mIoU提升。同时,T-REN将图像的令牌计数减少了24倍以上,视频的令牌计数减少了187倍以上。
🎯 应用场景
T-REN在开放词汇语义分割、文本-图像检索、视频对象定位和视频场景解析等领域具有广泛的应用前景。它可以用于提升智能视频分析、图像理解和跨模态检索等任务的性能,并为开发更高效、可扩展的视觉-语言模型提供新的思路。
📄 摘要(原文)
Despite recent progress, vision-language encoders struggle with two core limitations: (1) weak alignment between language and dense vision features, which hurts tasks like open-vocabulary semantic segmentation; and (2) high token counts for fine-grained visual representations, which limits scalability to long videos. This work addresses both limitations. We propose T-REN (Text-aligned Region Encoder Network), an efficient encoder that maps visual data to a compact set of text-aligned region-level representations (or region tokens). T-REN achieves this through a lightweight network added on top of a frozen vision backbone, trained to pool patch-level representations within each semantic region into region tokens and align them with region-level text annotations. With only 3.7% additional parameters compared to the vision-language backbone, this design yields substantially stronger dense cross-modal understanding while reducing the token count by orders of magnitude. Specifically, T-REN delivers +5.9 mIoU on ADE20K open-vocabulary segmentation, +18.4% recall on COCO object-level text-image retrieval, +15.6% recall on Ego4D video object localization, and +17.6% mIoU on VSPW video scene parsing, all while reducing token counts by more than 24x for images and 187x for videos compared to the patch-based vision-language backbone. The code and model are available at https://github.com/savya08/T-REN.