Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data

📄 arXiv: 2606.05781v1 📥 PDF

作者: Srinivasan Manoharan, Dilipkumar Nallusamy, Sachin Kumar, Haifeng Wu

分类: cs.LG

发布日期: 2026-06-04

备注: 4 pages, 2 figures, 4 tables


💡 一句话要点

提出混合后处理的领域适应小语言模型以解决合规评估问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 参数高效微调 LoRA 领域适应 混合推理 合规评估 结构化输出

📋 核心要点

  1. 现有的大型语言模型在领域特定的结构化评估任务中存在显著的延迟和高成本问题。
  2. 本文提出了一种混合框架,结合小型语言模型的微调与规则基础的后处理,以提高效率和准确性。
  3. 实验结果显示,该系统在盲评估中实现了100%的结构有效性和83.0%的整体准确率,且推理速度显著提升。

📝 摘要(中文)

在领域特定的结构化评估任务中,部署大型语言模型(LLMs)往往会带来显著的延迟、成本和数据隐私问题。本文提出了一种混合框架,结合了经过微调的小型语言模型(LLaMA 3.1 8B,仅有2.05%的可训练参数通过LoRA实现)和确定性的基于规则的后处理层。该系统在仅219个精心挑选的示例上进行训练,应用于涵盖18个异构输出字段的对话记录的多标签合规评估。在对53个之前未见的生产记录进行盲评估时,系统实现了100%的JSON结构有效性、83.0%的人工验证整体准确率,以及在最关键分类字段上的100%准确率。该方法通过引入针对性的硬负样本增强,提升了在关键决策边界上的性能。该系统在单个NVIDIA A100 GPU上运行,推理时间约为2秒,比前沿模型API快2-5倍,评估成本仅为0.013美元,相较于0.025-0.055美元的专有替代方案,节省了46-76%的成本。这些结果表明,领域适应的小型语言模型结合确定性后处理,可以在结构化合规评估中匹配前沿模型的准确性,同时显著降低运营成本、延迟和隐私风险。

🔬 方法详解

问题定义:本文旨在解决在领域特定的结构化评估任务中,使用大型语言模型所带来的高延迟和高成本问题。现有方法在数据隐私和计算资源方面也存在不足。

核心思路:论文提出了一种混合框架,通过结合小型语言模型的高效微调和确定性后处理,旨在在保持高准确率的同时,显著降低推理时间和成本。

技术框架:整体架构包括两个主要模块:首先是经过LoRA微调的小型语言模型,其次是一个基于规则的后处理层。模型在少量数据上进行训练,后处理层则负责对模型输出进行结构化调整。

关键创新:最重要的技术创新在于引入了混合神经-符号分解方法,并通过针对性的硬负样本增强来提升在关键决策边界上的性能。这种方法与传统的单一模型方法有本质区别。

关键设计:在参数设置上,模型仅使用2.05%的可训练参数,采用LoRA进行高效微调。损失函数和网络结构经过精心设计,以确保在少量数据上也能实现良好的性能。

📊 实验亮点

实验结果显示,该系统在盲评估中实现了100%的JSON结构有效性和83.0%的整体准确率,且在最关键分类字段上达到了100%的准确率。推理时间约为2秒,比前沿模型API快2-5倍,评估成本仅为0.013美元,节省了46-76%的成本。

🎯 应用场景

该研究的潜在应用领域包括合规性评估、客户服务对话分析以及任何需要高效结构化输出的领域。通过降低成本和延迟,该方法能够为企业提供更具竞争力的解决方案,同时保护用户数据隐私,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Deploying frontier large language models (LLMs) for domain-specific structured evaluation tasks often incurs substantial latency, cost, and data privacy overhead. We present a hybrid framework that combines a fine-tuned small language model (LLaMA 3.1 8B, with only 2.05% trainable parameters via LoRA) and a deterministic rule-based post-processing layer. Trained on just 219 curated examples, the system is applied to multi-label compliance evaluation of conversational transcripts spanning 18 heterogeneous output fields. In blind evaluation on 53 previously unseen production transcripts, it achieves 100% JSON structural validity, 83.0% human-validated overall accuracy, and 100% accuracy on the most critical classification field. The proposed approach formalizes a hybrid neural-symbolic decomposition and introduces targeted hard-negative augmentation to improve performance on critical decision boundaries. Running on a single NVIDIA A100 GPU, inference completes in approximately 2 seconds, which is 2-5x faster than frontier-model APIs. The system costs only $0.013 per evaluation compared with $0.025-$0.055 for proprietary alternatives, resulting in 46-76% cost savings. These results demonstrate that domain-adapted small language models, when combined with deterministic post-processing, can match frontier-model accuracy for structured compliance evaluation while substantially reducing operational cost, latency, and privacy risk. Keywords: small language models, parameter-efficient fine-tuning, LoRA, domain adaptation, hybrid inference, compliance evaluation, structured output.