Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras
作者: Sherif Abdelwahab
分类: cs.CV, cs.DC, cs.IR
发布日期: 2026-03-31
备注: 6 pages, 3 figures, 5 tables; supplementary video included as ancillary file
💡 一句话要点
提出新颖性过滤方法,提升边缘相机跨模态检索性能
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 跨模态检索 边缘计算 新颖性检测 视频理解 低功耗 epsilon-net 流式处理
📋 核心要点
- 边缘相机持续产生大量冗余视频帧,导致跨模态检索时相关结果难以进入Top-K。
- 提出设备端新颖性过滤方法,仅保留语义上新颖的帧,构建更有效的嵌入索引。
- 结合跨模态适配器和云端重排序器,在低功耗边缘设备上实现了高性能的跨模态检索。
📝 摘要(中文)
边缘相机持续生成视频流,其中冗余帧会降低跨模态检索性能,导致正确结果被挤出top-k搜索。本文提出一种流式检索架构:设备端epsilon-net滤波器仅保留语义上新颖的帧,构建去噪的嵌入索引;跨模态适配器和云端重排序器弥补了紧凑编码器对齐能力的不足。在两个以自我为中心的视频数据集(AEA、EPIC-KITCHENS)上,单次流式滤波器优于离线替代方案(k-means、最远点采样、均匀采样、随机采样),适用于八种视觉-语言模型(8M-632M)。结合起来,该架构使用8M的设备端编码器,在held-out数据集上达到45.6%的Hit@5,估计功耗为2.7mW。
🔬 方法详解
问题定义:论文旨在解决边缘相机场景下,由于视频流中存在大量冗余帧,导致跨模态检索性能下降的问题。现有方法,如直接对所有帧进行编码和索引,计算量大,且冗余帧会干扰检索结果,降低准确率。
核心思路:论文的核心思路是在设备端进行新颖性过滤,只保留信息量大的帧,从而减少需要处理的数据量,并提高索引的质量。通过过滤掉冗余帧,可以更有效地利用有限的计算资源,并提升检索的准确性。
技术框架:整体架构包含三个主要模块:1) 设备端新颖性滤波器:使用epsilon-net算法,根据帧的嵌入向量之间的距离,过滤掉与已有帧相似的帧,只保留新颖的帧。2) 跨模态适配器:用于将设备端编码的视觉特征与文本特征进行对齐,弥补设备端模型较小带来的对齐能力不足。3) 云端重排序器:利用更强大的云端计算资源,对初步检索结果进行重排序,进一步提升检索准确率。
关键创新:最重要的技术创新点在于设备端的新颖性过滤方法。与传统的离线聚类或采样方法相比,epsilon-net滤波器可以在单次流式处理中完成过滤,无需预先收集所有数据,更适合边缘相机的实时应用场景。
关键设计:epsilon-net滤波器的关键参数是epsilon值,它决定了帧之间相似度的阈值。论文通过实验确定了合适的epsilon值,以在保留足够信息的同时,尽可能减少冗余帧。此外,论文还针对设备端计算资源有限的特点,选择了轻量级的视觉编码器,并设计了高效的跨模态适配器。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的新颖性过滤方法在两个以自我为中心的视频数据集(AEA、EPIC-KITCHENS)上,优于传统的离线替代方案(k-means、最远点采样、均匀采样、随机采样)。结合跨模态适配器和云端重排序器,使用8M的设备端编码器,在held-out数据集上达到了45.6%的Hit@5,同时估计功耗仅为2.7mW。
🎯 应用场景
该研究成果可应用于智能安防、智能家居、自动驾驶等领域。例如,在智能安防中,可以利用该方法快速检索包含特定事件的视频片段;在智能家居中,可以根据用户的语音指令,快速定位到相关的视频帧。该方法在边缘设备上的高效运行能力,使其具有广泛的应用前景。
📄 摘要(原文)
Always-on edge cameras generate continuous video streams where redundant frames degrade cross-modal retrieval by crowding correct results out of top-k search. This paper presents a streaming retrieval architecture: an on-device epsilon-net filter retains only semantically novel frames, building a denoised embedding index; a cross-modal adapter and cloud re-ranker compensate for the compact encoder's weak alignment. A single-pass streaming filter outperforms offline alternatives (k-means, farthest-point, uniform, random) across eight vision-language models (8M-632M) on two egocentric datasets (AEA, EPIC-KITCHENS). Combined, the architecture reaches 45.6% Hit@5 on held-out data using an 8M on-device encoder at an estimated 2.7 mW.