Semantic-Geometric Dual Compression: Training-Free Visual Token Reduction for Ultra-High-Resolution Remote Sensing Understanding
作者: Yueying Li, Fengxiang Wang, Yan Li, Mingshuo Chen, Mengying Zhao, Long Lan
分类: cs.CV, cs.AI
发布日期: 2026-04-13
💡 一句话要点
提出DualComp,针对超高分辨率遥感影像,实现任务自适应的视觉令牌高效压缩。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 遥感影像处理 视觉令牌压缩 多模态大语言模型 语义几何二元性 任务自适应 超高分辨率 目标检测 场景理解
📋 核心要点
- 超高分辨率遥感影像处理面临视觉令牌数量庞大导致的计算瓶颈,现有压缩方法忽略了遥感任务的语义-几何二元性。
- DualComp框架通过双流结构,分别处理对象语义和场景几何信息,实现任务自适应的令牌压缩。
- 实验表明,DualComp在XLRS-Bench上以极低的计算成本实现了效率和准确性的同步提升。
📝 摘要(中文)
多模态大语言模型(MLLMs)在地球观测领域展现出巨大潜力。然而,处理超高分辨率(UHR)图像时产生的大量视觉令牌带来了巨大的计算开销,严重阻碍了其推理效率。现有的视觉令牌压缩方法主要采用静态和统一的压缩策略,忽略了遥感解译任务中固有的“语义-几何二元性”。具体来说,对象语义任务侧重于对象的抽象语义,并受益于积极的背景修剪,而场景几何任务则严重依赖于空间拓扑的完整性。为了解决这个挑战,我们提出了DualComp,一个任务自适应的双流令牌压缩框架。在轻量级预训练路由器的动态引导下,DualComp将特征处理解耦为两个专用路径。在对象语义流中,空间连续语义聚合器(SCSA)利用大小自适应聚类来聚合冗余背景,同时保护小对象。在场景几何流中,指令引导结构恢复器(IGSR)引入了一种贪婪路径追踪拓扑完成机制来重建空间骨架。在UHR遥感基准XLRS-Bench上的实验表明,DualComp以极低的计算成本实现了高保真遥感解译,同时提高了效率和准确性。
🔬 方法详解
问题定义:现有的视觉令牌压缩方法在处理超高分辨率遥感影像时,通常采用静态和统一的压缩策略,没有考虑到遥感解译任务中“语义-几何二元性”的特点。对象语义任务(如目标检测)关注对象的抽象语义,可以适当去除背景;而场景几何任务(如道路提取)则依赖于空间拓扑结构的完整性。因此,统一的压缩策略无法同时满足这两类任务的需求,导致性能下降或计算资源浪费。
核心思路:DualComp的核心思路是设计一个任务自适应的双流令牌压缩框架,根据不同的遥感解译任务,动态地调整压缩策略。通过将特征处理解耦为对象语义流和场景几何流,分别采用不同的压缩方法,以更好地保留任务相关的关键信息。这种设计能够兼顾不同任务的需求,从而在保证精度的前提下,显著降低计算成本。
技术框架:DualComp框架主要包含三个模块:轻量级预训练路由器、空间连续语义聚合器(SCSA)和指令引导结构恢复器(IGSR)。首先,预训练路由器根据输入图像的特征,动态地将特征分配到对象语义流或场景几何流。然后,SCSA在对象语义流中,利用大小自适应聚类来聚合冗余背景,同时保护小对象。IGSR在场景几何流中,引入贪婪路径追踪拓扑完成机制来重建空间骨架。最后,将两个流的输出进行融合,得到最终的压缩后的特征表示。
关键创新:DualComp的关键创新在于其任务自适应的双流压缩结构。通过预训练路由器动态地分配特征到不同的流,并针对每个流设计了专门的压缩模块,从而实现了对语义和几何信息的精细化处理。SCSA和IGSR分别针对对象语义和场景几何任务进行了优化,能够更好地保留任务相关的关键信息,并去除冗余信息。
关键设计:SCSA采用大小自适应聚类算法,根据对象的大小动态地调整聚类半径,以更好地保护小对象。IGSR采用贪婪路径追踪算法,从关键点出发,逐步扩展到整个空间骨架,以保证拓扑结构的完整性。此外,DualComp还使用了指令引导机制,通过指令来指导IGSR进行结构恢复,从而更好地适应不同的场景几何任务。具体的损失函数和网络结构细节在论文中有详细描述,此处不再赘述。
🖼️ 关键图片
📊 实验亮点
DualComp在XLRS-Bench基准测试中表现出色,在显著降低计算成本的同时,实现了遥感解译精度的提升。具体性能数据和对比基线在论文中有详细展示,证明了DualComp在效率和准确性方面的优势。该方法为超高分辨率遥感影像处理提供了一种新的有效解决方案。
🎯 应用场景
DualComp在超高分辨率遥感影像处理领域具有广泛的应用前景,例如城市规划、环境监测、灾害评估等。通过降低计算成本,可以支持更大规模、更高频率的遥感数据分析,从而为相关决策提供更及时、更准确的信息。该研究还有助于推动多模态大语言模型在地球观测领域的应用。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have demonstrated immense potential in Earth observation. However, the massive visual tokens generated when processing Ultra-High-Resolution (UHR) imagery introduce prohibitive computational overhead, severely bottlenecking their inference efficiency. Existing visual token compression methods predominantly adopt static and uniform compression strategies, neglecting the inherent "Semantic-Geometric Duality" in remote sensing interpretation tasks. Specifically, object semantic tasks focus on the abstract semantics of objects and benefit from aggressive background pruning, whereas scene geometric tasks critically rely on the integrity of spatial topology. To address this challenge, we propose DualComp, a task-adaptive dual-stream token compression framework. Dynamically guided by a lightweight pre-trained router, DualComp decouples feature processing into two dedicated pathways. In the object semantic stream, the Spatially-Contiguous Semantic Aggregator (SCSA) utilizes size-adaptive clustering to aggregates redundant background while protecting small object. In the scene geometric stream, the Instruction-Guided Structure Recoverer (IGSR) introduces a greedy path-tracing topology completion mechanism to reconstruct spatial skeletons. Experiments on the UHR remote sensing benchmark XLRS-Bench demonstrate that DualComp accomplishes high-fidelity remote sensing interpretation at an exceptionally low computational cost, achieving simultaneous improvements in both efficiency and accuracy.