TCMIIES: A Browser-Based LLM-Powered Intelligent Information Extraction System for Academic Literature

📄 arXiv: 2605.07507v1 📥 PDF

作者: Hanqing Zhao

分类: cs.CL, cs.IR

发布日期: 2026-05-08


💡 一句话要点

提出TCMIIES系统:一种基于浏览器且由LLM驱动的学术文献结构化信息提取平台

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息提取 大语言模型 学术文献挖掘 前端架构 数据隐私 知识图谱构建 零代码平台

📋 核心要点

  1. 现有信息提取工具依赖复杂基础设施与编程能力,导致非计算机专业研究人员难以利用LLM进行高效的学术文献知识挖掘。
  2. 提出TCMIIES系统,通过浏览器端架构与模式引导提示框架,实现零代码、隐私保护的自动化结构化信息提取流程。
  3. 在中医药领域验证显示,该系统结构化输出合规率超94%,提取精度媲美人工标注,有效降低了跨学科研究的技术门槛。

📝 摘要(中文)

学术出版物的指数级增长迫切需要自动化工具从非结构化文本中提取结构化知识。尽管大语言模型(LLM)在自然语言理解和信息提取方面表现出色,但现有解决方案往往依赖专门的基础设施、编程专业知识或特定领域的微调模型,这为专业领域的研究人员设置了门槛。本文提出了TCMIIES,这是一个基于浏览器的零安装平台,利用商业LLM API从学术文献中执行结构化信息提取。该系统采用了一种带有自动系统提示词生成功能的模式引导提示框架,使研究人员能够通过直观的图形界面定义自定义提取模式,无需任何编程。TCMIIES采用纯前端架构,通过在浏览器中本地处理所有信息来确保数据隐私,支持五大主流LLM提供商,实现了具有自动重试机制的并发批处理,并为中国知网(CNKI)和万方等学术数据库提供了智能字段映射。通过在中医药研究多个提取场景中的综合评估,该系统结构化输出合规率超过94%,信息提取准确率与领域专家标注相当。

🔬 方法详解

问题定义:学术文献信息提取面临“技术门槛高”与“数据隐私敏感”的双重挑战。现有方案通常要求用户具备编程能力或将数据上传至第三方服务器,这限制了其在专业领域(如中医药)的广泛应用。

核心思路:采用“浏览器即平台”的设计理念,将LLM调用逻辑封装在纯前端架构中。通过模式引导(Schema-guided)提示框架,将复杂的Prompt工程转化为直观的图形化配置,实现零代码交互。

技术框架:系统包含三个核心模块:一是图形化模式定义界面,用于构建提取Schema;二是自动系统提示词生成引擎,将Schema转化为LLM可理解的指令;三是前端并发处理引擎,负责调用LLM API、处理并发请求、执行自动重试及本地数据映射。

关键创新:最大的创新在于纯前端架构与模式引导提示的结合,确保了数据在本地浏览器处理,无需后端服务器存储,从而在利用云端LLM强大能力的同时,最大限度保障了学术数据的隐私安全。

关键设计:系统集成了针对CNKI和万方数据库的智能字段映射机制,支持五大主流LLM API的无缝切换,并实现了基于异步并发的批处理流水线,通过自动重试机制增强了在网络波动环境下的系统鲁棒性。

📊 实验亮点

实验结果表明,TCMIIES在中医药文献提取任务中表现优异,结构化输出合规率超过94%。在提取准确度指标上,该系统与领域专家的人工标注结果高度一致,证明了其在复杂学术文本处理中的可靠性,且通过并发处理机制显著提升了大规模文献的提取效率。

🎯 应用场景

该系统主要应用于学术研究领域,特别适用于中医药、生物医学等需要从海量非结构化文献中提取特定实体与关系的学科。其零代码特性使其成为科研人员构建知识图谱、进行系统综述及循证医学研究的高效工具,未来可扩展至法律、金融等对数据隐私要求极高的专业文档分析场景。

📄 摘要(原文)

The exponential growth of academic publications has created an urgent need for automated tools capable of extracting structured knowledge from unstructured scientific texts. While large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding and information extraction, existing solutions often require specialized infrastructure, programming expertise, or fine-tuned domain-specific models that create barriers for researchers in specialized fields. This paper presents TCMIIES, a browser-based, zero-installation platform that leverages commercial LLM APIs to perform structured information extraction from academic literature. The system employs a novel schema-guided prompting framework with automatic system prompt generation, enabling researchers to define custom extraction schemas through an intuitive graphical interface without any programming. TCMIIES features a pure front-end architecture that ensures data privacy by processing all information locally in the browser, supports five major LLM providers, implements concurrent batch processing with automatic retry mechanisms, and provides intelligent field mapping for Chinese academic databases including CNKI and Wanfang. We demonstrate the system's effectiveness through comprehensive evaluation across multiple extraction scenarios in Traditional Chinese Medicine research, achieving structured output compliance rates exceeding 94\% and information extraction accuracy comparable to domain-expert annotation. The system represents a practical, accessible solution that bridges the gap between advanced LLM capabilities and domain-specific academic information extraction needs, particularly for researchers in specialized fields who require flexible, privacy-preserving, and cost-effective extraction tools.