Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras

作者: Sherif Abdelwahab

分类: cs.CV, cs.DC, cs.IR

发布日期: 2026-03-31

备注: 6 pages, 3 figures, 5 tables; supplementary video included as ancillary file

💡 一句话要点

提出新颖性过滤方法，提升边缘相机跨模态检索性能

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 跨模态检索 边缘计算 新颖性检测 视频理解 低功耗 epsilon-net 流式处理

📋 核心要点

边缘相机持续产生大量冗余视频帧，导致跨模态检索时相关结果难以进入Top-K。
提出设备端新颖性过滤方法，仅保留语义上新颖的帧，构建更有效的嵌入索引。
结合跨模态适配器和云端重排序器，在低功耗边缘设备上实现了高性能的跨模态检索。

📝 摘要（中文）

边缘相机持续生成视频流，其中冗余帧会降低跨模态检索性能，导致正确结果被挤出top-k搜索。本文提出一种流式检索架构：设备端epsilon-net滤波器仅保留语义上新颖的帧，构建去噪的嵌入索引；跨模态适配器和云端重排序器弥补了紧凑编码器对齐能力的不足。在两个以自我为中心的视频数据集（AEA、EPIC-KITCHENS）上，单次流式滤波器优于离线替代方案（k-means、最远点采样、均匀采样、随机采样），适用于八种视觉-语言模型（8M-632M）。结合起来，该架构使用8M的设备端编码器，在held-out数据集上达到45.6%的Hit@5，估计功耗为2.7mW。

🔬 方法详解

问题定义：论文旨在解决边缘相机场景下，由于视频流中存在大量冗余帧，导致跨模态检索性能下降的问题。现有方法，如直接对所有帧进行编码和索引，计算量大，且冗余帧会干扰检索结果，降低准确率。

核心思路：论文的核心思路是在设备端进行新颖性过滤，只保留信息量大的帧，从而减少需要处理的数据量，并提高索引的质量。通过过滤掉冗余帧，可以更有效地利用有限的计算资源，并提升检索的准确性。

技术框架：整体架构包含三个主要模块：1) 设备端新颖性滤波器：使用epsilon-net算法，根据帧的嵌入向量之间的距离，过滤掉与已有帧相似的帧，只保留新颖的帧。2) 跨模态适配器：用于将设备端编码的视觉特征与文本特征进行对齐，弥补设备端模型较小带来的对齐能力不足。3) 云端重排序器：利用更强大的云端计算资源，对初步检索结果进行重排序，进一步提升检索准确率。

关键创新：最重要的技术创新点在于设备端的新颖性过滤方法。与传统的离线聚类或采样方法相比，epsilon-net滤波器可以在单次流式处理中完成过滤，无需预先收集所有数据，更适合边缘相机的实时应用场景。

关键设计：epsilon-net滤波器的关键参数是epsilon值，它决定了帧之间相似度的阈值。论文通过实验确定了合适的epsilon值，以在保留足够信息的同时，尽可能减少冗余帧。此外，论文还针对设备端计算资源有限的特点，选择了轻量级的视觉编码器，并设计了高效的跨模态适配器。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的新颖性过滤方法在两个以自我为中心的视频数据集（AEA、EPIC-KITCHENS）上，优于传统的离线替代方案（k-means、最远点采样、均匀采样、随机采样）。结合跨模态适配器和云端重排序器，使用8M的设备端编码器，在held-out数据集上达到了45.6%的Hit@5，同时估计功耗仅为2.7mW。

🎯 应用场景

该研究成果可应用于智能安防、智能家居、自动驾驶等领域。例如，在智能安防中，可以利用该方法快速检索包含特定事件的视频片段；在智能家居中，可以根据用户的语音指令，快速定位到相关的视频帧。该方法在边缘设备上的高效运行能力，使其具有广泛的应用前景。

📄 摘要（原文）

Always-on edge cameras generate continuous video streams where redundant frames degrade cross-modal retrieval by crowding correct results out of top-k search. This paper presents a streaming retrieval architecture: an on-device epsilon-net filter retains only semantically novel frames, building a denoised embedding index; a cross-modal adapter and cloud re-ranker compensate for the compact encoder's weak alignment. A single-pass streaming filter outperforms offline alternatives (k-means, farthest-point, uniform, random) across eight vision-language models (8M-632M) on two egocentric datasets (AEA, EPIC-KITCHENS). Combined, the architecture reaches 45.6% Hit@5 on held-out data using an 8M on-device encoder at an estimated 2.7 mW.

Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理