Quecto-V1: Empirical Analysis of 8-bit Quantized Small Language Models for On-Device Legal Retrieval

📄 arXiv: 2602.16640v1 📥 PDF

作者: Subrit Dikshit

分类: cs.CL

发布日期: 2026-02-18

备注: 5 pages, 2 tables


💡 一句话要点

Quecto-V1:面向设备端法律检索的8比特量化小型语言模型实证分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律检索 小型语言模型 领域特定训练 8比特量化 设备端部署

📋 核心要点

  1. 现有法律智能系统依赖大型云端模型,资源消耗高,数据主权存在风险,限制了其在资源受限环境中的应用。
  2. Quecto-V1通过领域特定训练和8比特量化,构建了一个小型、高效且保护隐私的法律检索模型,适用于设备端部署。
  3. 实验表明,Quecto-V1在法律领域检索任务中表现出色,同时显著降低了模型大小,实现了在消费级CPU上的离线运行。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展革新了自然语言处理(NLP),但也造成了“资源鸿沟”。目前先进的法律智能系统通常依赖于庞大的参数量(7B+)和基于云的推理,这使得资源受限环境下的从业者难以使用,并带来了严重的数据主权风险。本文介绍了Quecto-V1,一个领域特定的小型语言模型(SLM),旨在普及印度法律智能。Quecto-V1基于GPT-2架构的自定义配置(1.24亿参数)构建,完全基于印度法规语料库从头开始训练,包括《印度刑法典》(IPC)、《刑事诉讼法典》(CrPC)和《印度宪法》。与优先考虑广泛世界知识的通用模型不同,我们的方法最大限度地提高了法律领域的“词汇密度”。此外,我们通过应用训练后8比特量化(GGUF格式)来解决部署瓶颈,将模型压缩到150 MB以下的内存占用。我们的实证分析表明,Quecto-V1在检索法规定义和刑罚条款方面实现了高保真度,在领域特定的精确匹配任务中优于通用SLM,同时完全在消费级CPU上离线运行。我们进一步提出了一个消融研究,表明与全精度基线相比,8比特量化在检索精度降低不到3.5%的情况下,模型大小减少了74%。这些发现表明,对于法律等专业、高风险领域,领域特定训练与积极量化相结合,为整体云模型提供了一种可行的、保护隐私的替代方案。

🔬 方法详解

问题定义:现有法律智能系统依赖于大型语言模型,这些模型参数量巨大,需要大量的计算资源和存储空间,通常部署在云端。这使得资源受限的法律从业者难以使用,并且存在数据安全和隐私泄露的风险。因此,需要一种能够在资源受限设备上运行,同时保持较高检索精度的法律智能解决方案。

核心思路:论文的核心思路是构建一个领域特定的小型语言模型(SLM),并通过量化技术进一步压缩模型大小,使其能够在消费级CPU上离线运行。通过专注于法律领域的训练数据,提高模型在该领域的词汇密度和检索能力。

技术框架:Quecto-V1基于GPT-2架构构建,包含1.24亿参数。模型训练完全基于印度法律法规语料库,包括《印度刑法典》、《刑事诉讼法典》和《印度宪法》。训练完成后,采用后训练8比特量化(GGUF格式)对模型进行压缩,使其能够在资源受限的设备上运行。

关键创新:该论文的关键创新在于将领域特定训练和8比特量化相结合,构建了一个能够在设备端运行的高精度法律检索模型。与通用语言模型相比,Quecto-V1通过专注于法律领域的数据,提高了在该领域的检索性能。同时,8比特量化技术显著降低了模型大小,使其能够在消费级CPU上离线运行。

关键设计:Quecto-V1的关键设计包括:1) 基于GPT-2架构进行定制,选择合适的模型大小以平衡性能和资源消耗;2) 采用印度法律法规语料库进行训练,提高模型在该领域的词汇密度;3) 使用GGUF格式进行8比特量化,在保证检索精度的情况下,显著降低模型大小。论文还进行了消融研究,评估了量化对检索精度的影响。

📊 实验亮点

Quecto-V1在领域特定的精确匹配任务中优于通用SLM。8比特量化将模型大小减少了74%,同时检索精度仅下降不到3.5%。该模型能够在消费级CPU上完全离线运行,内存占用小于150MB。这些结果表明,领域特定训练和量化是构建高效、低资源消耗的法律智能系统的有效方法。

🎯 应用场景

Quecto-V1可应用于资源受限环境下的法律咨询、法律援助和法律教育等领域。律师、法官和法律学生可以在没有网络连接的情况下,随时随地访问法律法规信息。该研究还有助于推动法律智能的普及,降低法律服务的成本,并提高法律服务的可及性。未来,该方法可以扩展到其他专业领域,例如医疗、金融等。

📄 摘要(原文)

The rapid proliferation of Large Language Models (LLMs) has revolutionized Natural Language Processing (NLP) but has simultaneously created a "resource divide." State-of-the-art legal intelligence systems typically rely on massive parameter counts (7B+) and cloud-based inference, rendering them inaccessible to practitioners in resource-constrained environments and posing significant data sovereignty risks. This paper introduces Quecto-V1, a domain-specific Small Language Model (SLM) engineered to democratize access to Indian legal intelligence. Built upon a custom configuration of the GPT-2 architecture (124 million parameters), Quecto-V1 was trained from scratch exclusively on a corpus of Indian statutes, including the Indian Penal Code (IPC), the Code of Criminal Procedure (CrPC), and the Constitution of India. Unlike generalist models, which prioritize broad world knowledge, our approach maximizes "lexical density" within the legal domain. Furthermore, we address the deployment bottleneck by applying post-training 8-bit quantization (GGUF format), compressing the model to a memory footprint of under 150 MB. Our empirical analysis demonstrates that Quecto-V1 achieves high fidelity in retrieving statutory definitions and penal provisions, outperforming general-purpose SLMs in domain-specific exact match tasks while running entirely offline on consumer-grade CPUs. We further present an ablation study showing that 8-bit quantization yields a 74% reduction in model size with less than 3.5% degradation in retrieval accuracy compared to full-precision baselines. These findings suggest that for specialized, high-stakes domains like law, domain-specific training coupled with aggressive quantization offers a viable, privacy-preserving alternative to monolithic cloud models.