Effective and Efficient Schema-aware Information Extraction Using On-Device Large Language Models

📄 arXiv: 2505.14992v1 📥 PDF

作者: Zhihao Wen, Sheng Liang, Yaxiong Wu, Yongyue Zhang, Yong Liu

分类: cs.CL

发布日期: 2025-05-21

备注: 5 pages, 2 figures


💡 一句话要点

提出DLISC:一种基于双LoRA与增量Schema缓存的设备端高效信息抽取方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息抽取 大型语言模型 设备端部署 LoRA 模式识别 增量缓存 效率优化

📋 核心要点

  1. 现有信息抽取方法在资源受限设备上部署大型语言模型时,面临幻觉、上下文长度限制和高延迟等挑战。
  2. DLISC方法通过Identification LoRA模块进行模式检索,Extraction LoRA模块执行信息抽取,实现高效的模式感知信息抽取。
  3. 实验结果表明,DLISC在多个信息抽取数据集上,有效性和效率均得到显著提升,验证了该方法的有效性。

📝 摘要(中文)

本文提出了一种适用于资源受限设备上部署大型语言模型(LLM)的信息抽取(IE)双阶段方法,称为Dual-LoRA with Incremental Schema Caching (DLISC)。该方法旨在解决设备端LLM在信息抽取中面临的幻觉、上下文长度限制和高延迟等问题,尤其是在处理多样化抽取模式时。DLISC采用Identification LoRA模块检索与给定查询最相关的模式,并使用Extraction LoRA模块基于先前选择的模式执行信息抽取。为了加速抽取推理,DLISC集成了增量模式缓存,以减少冗余计算,从而显著提高效率。在多个信息抽取数据集上的大量实验表明,DLISC在有效性和效率方面均有显著提升。

🔬 方法详解

问题定义:论文旨在解决在资源受限的设备上,如何高效且有效地利用大型语言模型(LLM)进行信息抽取的问题。现有方法在设备端部署LLM进行信息抽取时,面临着幻觉问题、上下文长度限制以及高延迟等挑战,尤其是在处理多种不同的抽取模式时,这些问题会更加突出。

核心思路:论文的核心思路是将信息抽取过程分解为两个阶段,并分别使用轻量级的LoRA模块进行优化。第一阶段使用Identification LoRA模块快速检索与输入查询最相关的模式,第二阶段使用Extraction LoRA模块基于检索到的模式进行信息抽取。此外,引入增量模式缓存机制,避免重复计算,进一步提升效率。

技术框架:DLISC方法包含两个主要阶段:模式识别和模式感知的信息抽取。首先,Identification LoRA模块接收输入查询,并从预定义的模式集中检索最相关的模式。然后,Extraction LoRA模块利用检索到的模式和原始输入查询,执行信息抽取任务,提取所需的信息。增量模式缓存模块用于存储已计算过的模式抽取结果,避免重复计算,从而加速推理过程。

关键创新:DLISC的关键创新在于双LoRA模块的设计和增量模式缓存机制的引入。双LoRA模块将模式识别和信息抽取任务解耦,分别进行优化,提高了模型的效率和准确性。增量模式缓存机制通过缓存已计算的模式抽取结果,避免了重复计算,显著提升了推理速度。

关键设计:Identification LoRA和Extraction LoRA模块均基于LoRA技术,通过在预训练LLM的基础上添加少量可训练参数,实现对特定任务的微调。增量模式缓存采用键值对存储结构,键为输入查询和检索到的模式的组合,值为抽取结果。缓存的更新策略可以根据实际情况进行调整,例如采用LRU(Least Recently Used)策略。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DLISC方法在多个信息抽取数据集上均取得了显著的性能提升。与现有方法相比,DLISC在有效性和效率方面均有明显优势。具体来说,DLISC在保持较高抽取准确率的同时,显著降低了推理延迟,使得在资源受限设备上部署LLM进行信息抽取成为可能。

🎯 应用场景

DLISC方法适用于各种需要在资源受限设备上进行信息抽取的场景,例如移动设备上的智能助手、边缘计算设备上的数据分析等。该方法可以帮助用户快速从非结构化文本中提取所需信息,提高工作效率,并为设备端智能应用提供更强大的数据处理能力。未来,该方法可以进一步扩展到更多领域,例如智能家居、自动驾驶等。

📄 摘要(原文)

Information extraction (IE) plays a crucial role in natural language processing (NLP) by converting unstructured text into structured knowledge. Deploying computationally intensive large language models (LLMs) on resource-constrained devices for information extraction is challenging, particularly due to issues like hallucinations, limited context length, and high latency-especially when handling diverse extraction schemas. To address these challenges, we propose a two-stage information extraction approach adapted for on-device LLMs, called Dual-LoRA with Incremental Schema Caching (DLISC), which enhances both schema identification and schema-aware extraction in terms of effectiveness and efficiency. In particular, DLISC adopts an Identification LoRA module for retrieving the most relevant schemas to a given query, and an Extraction LoRA module for performing information extraction based on the previously selected schemas. To accelerate extraction inference, Incremental Schema Caching is incorporated to reduce redundant computation, substantially improving efficiency. Extensive experiments across multiple information extraction datasets demonstrate notable improvements in both effectiveness and efficiency.