Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

📄 arXiv: 2602.22455 📥 PDF

作者: Giuseppe Lando, Rosario Forte, Antonino Furnari

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

探索边缘设备上多模态LLM用于在线情景记忆问答

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 情景记忆 边缘计算 大语言模型 实时问答

📋 核心要点

  1. 现有云端情景记忆问答方案存在隐私泄露和高延迟的风险,限制了其在可穿戴设备等边缘场景的应用。
  2. 提出一种基于多模态大语言模型(MLLM)的边缘端在线情景记忆问答方案,在资源受限的条件下实现高效推理。
  3. 实验表明,在消费级GPU上,该方案在保证一定准确率的同时,显著降低了首次生成token的时间,性能接近云端方案。

📝 摘要(中文)

本文研究了使用多模态大型语言模型(MLLM)进行实时在线情景记忆问答的可行性。虽然云卸载很常见,但它引发了可穿戴助手的隐私和延迟问题,因此我们研究了在边缘设备上的实现。我们将流式传输约束集成到我们的问答管道中,该管道被构建为两个异步线程:描述符线程,它持续将视频转换为轻量级文本记忆;以及问答(QA)线程,它基于文本记忆进行推理以回答查询。在QAEgo4D-Closed基准上的实验分析了多模态大型语言模型(MLLM)在严格资源限制内的性能,显示出有希望的结果,甚至与基于云的解决方案相比也是如此。具体来说,在消费级8GB GPU上运行的端到端配置实现了51.76%的准确率,首次生成token时间(TTFT)为0.41秒。扩展到本地企业级服务器可产生54.40%的准确率,TTFT为0.88秒。相比之下,基于云的解决方案获得了56.00%的准确率。这些具有竞争力的结果突出了基于边缘的解决方案在保护隐私的情景记忆检索方面的潜力。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘设备上,如何利用多模态信息(特别是视频)进行实时在线情景记忆问答的问题。现有方法通常依赖于云端服务器进行计算,这带来了隐私泄露的风险,并且由于网络延迟,无法满足实时性要求。因此,如何在边缘设备上高效地利用多模态大语言模型,成为一个重要的挑战。

核心思路:论文的核心思路是将视频流转换为轻量级的文本记忆,然后利用多模态大语言模型对这些文本记忆进行推理,从而回答用户提出的问题。这种方法避免了直接在视频上进行推理,降低了计算复杂度,使其能够在边缘设备上运行。同时,通过异步线程的设计,保证了系统的实时性。

技术框架:该问答管道包含两个异步线程:描述符线程和问答线程。描述符线程负责将视频流转换为文本描述,例如,通过目标检测和场景识别等技术,提取视频中的关键信息,并将其转换为文本形式。问答线程则负责接收用户的提问,并基于描述符线程生成的文本记忆进行推理,生成答案。两个线程异步运行,保证了系统的实时性。

关键创新:该论文的关键创新在于将流式传输约束集成到问答管道中,使其能够处理实时视频流。此外,该论文还探索了在资源受限的边缘设备上运行多模态大语言模型的可行性,并提出了一种轻量级的文本记忆表示方法。

关键设计:论文中使用了QAEgo4D-Closed基准进行实验,该基准包含大量的情景记忆问答数据。论文还对多模态大语言模型的选择进行了实验,并选择了在资源受限条件下性能较好的模型。此外,论文还对描述符线程和问答线程的参数进行了优化,以提高系统的整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在消费级8GB GPU上运行的端到端配置实现了51.76%的准确率,首次生成token时间(TTFT)为0.41秒。扩展到本地企业级服务器可产生54.40%的准确率,TTFT为0.88秒。相比之下,基于云的解决方案获得了56.00%的准确率。边缘设备上的结果与云端方案的性能差距较小,验证了该方案在边缘设备上进行实时情景记忆问答的可行性。

🎯 应用场景

该研究成果可应用于智能助手、可穿戴设备、智能家居等领域。例如,智能眼镜可以利用该技术实时回答用户关于周围环境的问题,而无需将数据上传到云端,从而保护用户隐私。此外,该技术还可以应用于工业巡检、安防监控等场景,提高工作效率和安全性。

📄 摘要(原文)

We investigate the feasibility of using Multimodal Large Language Models (MLLMs) for real-time online episodic memory question answering. While cloud offloading is common, it raises privacy and latency concerns for wearable assistants, hence we investigate implementation on the edge. We integrated streaming constraints into our question answering pipeline, which is structured into two asynchronous threads: a Descriptor Thread that continuously converts video into a lightweight textual memory, and a Question Answering (QA) Thread that reasons over the textual memory to answer queries. Experiments on the QAEgo4D-Closed benchmark analyze the performance of Multimodal Large Language Models (MLLMs) within strict resource boundaries, showing promising results also when compared to clound-based solutions. Specifically, an end-to-end configuration running on a consumer-grade 8GB GPU achieves 51.76% accuracy with a Time-To-First-Token (TTFT) of 0.41s. Scaling to a local enterprise-grade server yields 54.40% accuracy with a TTFT of 0.88s. In comparison, a cloud-based solution obtains an accuracy of 56.00%. These competitive results highlight the potential of edge-based solutions for privacy-preserving episodic memory retrieval.