RAGdb: A Zero-Dependency, Embeddable Architecture for Multimodal Retrieval-Augmented Generation on the Edge

📄 arXiv: 2602.22217 📥 PDF

作者: Ahmed Bin Khalid

分类: cs.IR, cs.AI

发布日期: 2026-02-28


💡 一句话要点

RAGdb:一种零依赖、可嵌入的边缘多模态RAG架构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 边缘AI 检索增强生成 向量搜索 绿色AI 无服务器架构 知识图谱 高效计算 单文件数据库

📋 核心要点

  1. 现有RAG架构复杂,依赖云端资源和重型深度学习框架,阻碍了其在边缘计算和隐私敏感场景的应用。
  2. RAGdb采用单体架构,将多模态数据摄取、特征提取和混合向量检索集成到SQLite容器中,实现轻量化部署。
  3. 实验表明,RAGdb在实体检索上达到100% Recall@1,摄取效率提升31.6倍,磁盘占用减少99.5%。

📝 摘要(中文)

检索增强生成(RAG)已成为将大型语言模型(LLM)置于特定领域最新数据中的标准范例。然而,目前RAG的架构已经演变为一个复杂的分布式堆栈,需要云托管的向量数据库、重型深度学习框架(如PyTorch、CUDA)和高延迟的嵌入推理服务器。这种“基础设施膨胀”为边缘计算、气隙环境和数据主权至关重要的隐私约束应用带来了重大障碍。本文介绍了一种新颖的单体架构RAGdb,它将自动多模态摄取、基于ONNX的提取和混合向量检索整合到一个单一的、可移植的SQLite容器中。我们提出了一种确定性的混合评分函数(HSF),它将亚线性TF-IDF向量化与精确子字符串boosting相结合,消除了查询时对GPU推理的需求。在Intel i7-1165G7消费级笔记本电脑上的实验评估表明,RAGdb在实体检索方面实现了100%的Recall@1,并且与冷启动相比,增量更新期间的摄取效率提高了31.6倍。此外,与基于Docker的标准RAG堆栈相比,该系统将磁盘占用空间减少了约99.5%,从而将“单文件知识容器”确立为分散式、本地优先AI的可行原语。

🔬 方法详解

问题定义:现有RAG系统通常依赖于复杂的分布式架构,包括云托管的向量数据库和GPU加速的嵌入模型。这使得它们难以部署在资源受限的边缘设备、气隙环境或对数据隐私有严格要求的场景中。现有方法的痛点在于其高昂的部署成本、对网络连接的依赖以及潜在的数据安全风险。

核心思路:RAGdb的核心思路是将RAG系统的所有关键组件整合到一个单一的、可移植的SQLite数据库中。通过消除对外部依赖项的需求,RAGdb可以轻松地部署在各种环境中,包括边缘设备和离线系统。这种设计旨在降低部署复杂性、提高资源利用率并增强数据安全性。

技术框架:RAGdb的整体架构包括三个主要阶段:1) 多模态数据摄取:自动从各种来源摄取数据,包括文本、图像和音频。2) 基于ONNX的特征提取:使用ONNX运行时执行轻量级的特征提取,无需GPU加速。3) 混合向量检索:使用混合评分函数(HSF)执行高效的向量检索,该函数结合了TF-IDF向量化和精确子字符串boosting。

关键创新:RAGdb最重要的技术创新点在于其单体架构和混合评分函数(HSF)。单体架构消除了对外部依赖项的需求,简化了部署并提高了资源利用率。HSF通过结合TF-IDF向量化和精确子字符串boosting,实现了高效的向量检索,而无需GPU加速。这使得RAGdb能够在资源受限的设备上运行,同时保持高检索精度。

关键设计:RAGdb的关键设计包括:1) 使用SQLite作为底层数据库,提供轻量级和可移植的存储。2) 使用ONNX运行时执行特征提取,避免了对重型深度学习框架的依赖。3) 设计了一种确定性的混合评分函数(HSF),该函数结合了亚线性TF-IDF向量化和精确子字符串boosting。HSF的具体实现细节(例如,TF-IDF的参数设置、子字符串boosting的权重)可能需要根据具体应用进行调整。

📊 实验亮点

RAGdb在Intel i7-1165G7笔记本上实现了100%的实体检索Recall@1。与冷启动相比,增量更新的摄取效率提高了31.6倍。此外,与基于Docker的标准RAG堆栈相比,磁盘占用空间减少了约99.5%,显著降低了资源消耗。

🎯 应用场景

RAGdb适用于边缘计算、气隙环境和隐私约束的应用,例如:离线知识库查询、本地化文档检索、智能家居设备上的问答系统、以及需要数据主权保障的医疗和金融领域。它降低了AI部署门槛,促进了去中心化和本地优先AI的发展。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has established itself as the standard paradigm for grounding Large Language Models (LLMs) in domain-specific, up-to-date data. However, the prevailing architecture for RAG has evolved into a complex, distributed stack requiring cloud-hosted vector databases, heavy deep learning frameworks (e.g., PyTorch, CUDA), and high-latency embedding inference servers. This infrastructure bloat'' creates a significant barrier to entry for edge computing, air-gapped environments, and privacy-constrained applications where data sovereignty is paramount.This paper introduces RAGdb, a novel monolithic architecture that consolidates automated multimodal ingestion, ONNX-based extraction, and hybrid vector retrieval into a single, portable SQLite container. We propose a deterministic Hybrid Scoring Function (HSF) that combines sublinear TF-IDF vectorization with exact substring boosting, eliminating the need for GPU inference at query time. Experimental evaluation on an Intel i7-1165G7 consumer laptop demonstrates that RAGdb achieves 100\% Recall@1 for entity retrieval and an ingestion efficiency gain of 31.6x during incremental updates compared to cold starts. Furthermore, the system reduces disk footprint by approximately 99.5\% compared to standard Docker-based RAG stacks, establishing theSingle-File Knowledge Container'' as a viable primitive for decentralized, local-first AI.Keywords: Edge AI, Retrieval-Augmented Generation, Vector Search, Green AI, Serverless Architecture, Knowledge Graphs, Efficient Computing.