RAGdb: A Zero-Dependency, Embeddable Architecture for Multimodal Retrieval-Augmented Generation on the Edge

作者: Ahmed Bin Khalid

分类: cs.IR, cs.AI

发布日期: 2026-02-28

💡 一句话要点

RAGdb：一种零依赖、可嵌入的边缘多模态RAG架构

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 边缘AI 检索增强生成 向量搜索 绿色AI 无服务器架构 知识图谱 高效计算 单文件数据库

📋 核心要点

现有RAG架构复杂，依赖云端资源和重型深度学习框架，阻碍了其在边缘计算和隐私敏感场景的应用。
RAGdb采用单体架构，将多模态数据摄取、特征提取和混合向量检索集成到SQLite容器中，实现轻量化部署。
实验表明，RAGdb在实体检索上达到100% Recall@1，摄取效率提升31.6倍，磁盘占用减少99.5%。

📝 摘要（中文）

检索增强生成(RAG)已成为将大型语言模型(LLM)置于特定领域最新数据中的标准范例。然而，目前RAG的架构已经演变为一个复杂的分布式堆栈，需要云托管的向量数据库、重型深度学习框架(如PyTorch、CUDA)和高延迟的嵌入推理服务器。这种“基础设施膨胀”为边缘计算、气隙环境和数据主权至关重要的隐私约束应用带来了重大障碍。本文介绍了一种新颖的单体架构RAGdb，它将自动多模态摄取、基于ONNX的提取和混合向量检索整合到一个单一的、可移植的SQLite容器中。我们提出了一种确定性的混合评分函数(HSF)，它将亚线性TF-IDF向量化与精确子字符串boosting相结合，消除了查询时对GPU推理的需求。在Intel i7-1165G7消费级笔记本电脑上的实验评估表明，RAGdb在实体检索方面实现了100%的Recall@1，并且与冷启动相比，增量更新期间的摄取效率提高了31.6倍。此外，与基于Docker的标准RAG堆栈相比，该系统将磁盘占用空间减少了约99.5%，从而将“单文件知识容器”确立为分散式、本地优先AI的可行原语。

🔬 方法详解

问题定义：现有RAG系统通常依赖于复杂的分布式架构，包括云托管的向量数据库和GPU加速的嵌入模型。这使得它们难以部署在资源受限的边缘设备、气隙环境或对数据隐私有严格要求的场景中。现有方法的痛点在于其高昂的部署成本、对网络连接的依赖以及潜在的数据安全风险。

核心思路：RAGdb的核心思路是将RAG系统的所有关键组件整合到一个单一的、可移植的SQLite数据库中。通过消除对外部依赖项的需求，RAGdb可以轻松地部署在各种环境中，包括边缘设备和离线系统。这种设计旨在降低部署复杂性、提高资源利用率并增强数据安全性。

技术框架：RAGdb的整体架构包括三个主要阶段：1) 多模态数据摄取：自动从各种来源摄取数据，包括文本、图像和音频。2) 基于ONNX的特征提取：使用ONNX运行时执行轻量级的特征提取，无需GPU加速。3) 混合向量检索：使用混合评分函数(HSF)执行高效的向量检索，该函数结合了TF-IDF向量化和精确子字符串boosting。

关键创新：RAGdb最重要的技术创新点在于其单体架构和混合评分函数(HSF)。单体架构消除了对外部依赖项的需求，简化了部署并提高了资源利用率。HSF通过结合TF-IDF向量化和精确子字符串boosting，实现了高效的向量检索，而无需GPU加速。这使得RAGdb能够在资源受限的设备上运行，同时保持高检索精度。

关键设计：RAGdb的关键设计包括：1) 使用SQLite作为底层数据库，提供轻量级和可移植的存储。2) 使用ONNX运行时执行特征提取，避免了对重型深度学习框架的依赖。3) 设计了一种确定性的混合评分函数(HSF)，该函数结合了亚线性TF-IDF向量化和精确子字符串boosting。HSF的具体实现细节（例如，TF-IDF的参数设置、子字符串boosting的权重）可能需要根据具体应用进行调整。

📊 实验亮点

RAGdb在Intel i7-1165G7笔记本上实现了100%的实体检索Recall@1。与冷启动相比，增量更新的摄取效率提高了31.6倍。此外，与基于Docker的标准RAG堆栈相比，磁盘占用空间减少了约99.5%，显著降低了资源消耗。

🎯 应用场景

RAGdb适用于边缘计算、气隙环境和隐私约束的应用，例如：离线知识库查询、本地化文档检索、智能家居设备上的问答系统、以及需要数据主权保障的医疗和金融领域。它降低了AI部署门槛，促进了去中心化和本地优先AI的发展。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has established itself as the standard paradigm for grounding Large Language Models (LLMs) in domain-specific, up-to-date data. However, the prevailing architecture for RAG has evolved into a complex, distributed stack requiring cloud-hosted vector databases, heavy deep learning frameworks (e.g., PyTorch, CUDA), and high-latency embedding inference servers. This infrastructure bloat'' creates a significant barrier to entry for edge computing, air-gapped environments, and privacy-constrained applications where data sovereignty is paramount.This paper introduces RAGdb, a novel monolithic architecture that consolidates automated multimodal ingestion, ONNX-based extraction, and hybrid vector retrieval into a single, portable SQLite container. We propose a deterministic Hybrid Scoring Function (HSF) that combines sublinear TF-IDF vectorization with exact substring boosting, eliminating the need for GPU inference at query time. Experimental evaluation on an Intel i7-1165G7 consumer laptop demonstrates that RAGdb achieves 100\% Recall@1 for entity retrieval and an ingestion efficiency gain of 31.6x during incremental updates compared to cold starts. Furthermore, the system reduces disk footprint by approximately 99.5\% compared to standard Docker-based RAG stacks, establishing theSingle-File Knowledge Container'' as a viable primitive for decentralized, local-first AI.Keywords: Edge AI, Retrieval-Augmented Generation, Vector Search, Green AI, Serverless Architecture, Knowledge Graphs, Efficient Computing.

RAGdb: A Zero-Dependency, Embeddable Architecture for Multimodal Retrieval-Augmented Generation on the Edge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理