Merlin: Deterministic Byte-Exact Deduplication for Lossless Context Optimization in Large Language Model Inference
作者: Sietse Schelpe
分类: cs.CL
发布日期: 2026-05-11
备注: Preprint. Implementation and open-source community version available at: https://github.com/corbenicai/merlin-community - https://doi.org/10.5281/zenodo.20090991
💡 一句话要点
提出Merlin:一种基于确定性字节级去重的高吞吐上下文优化引擎,旨在提升大模型推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 检索增强生成 数据去重 上下文优化 高性能计算 模型上下文协议 SIMD优化
📋 核心要点
- 针对大规模数据处理中因文本高度冗余导致的计算与存储瓶颈,现有通用去重方案在LLM推理场景下往往存在性能与保真度的权衡问题。
- Merlin采用SIMD友好的开放寻址哈希集与xxHash3-64算法,实现确定性的字节级去重,在保证数据无损的前提下显著压缩上下文输入。
- 实验表明,该系统在不同冗余度数据集上实现了13.9%至71%的输入缩减,并支持高达8.7 GB/s的吞吐量,有效优化了RAG等LLM应用流程。
📝 摘要(中文)
从大规模检索系统到高级数据流水线,数据密集型应用正日益受到高度冗余文本语料处理的瓶颈限制。本文提出了Merlin,这是一个本地优先、与具体模型无关的高吞吐量去重与上下文优化引擎,旨在缓解上述效率问题。Merlin利用高度优化的SIMD友好型开放寻址平坦哈希集(Flat Hash Set)结合xxHash3-64算法,对文本段落和数据块执行快速、字节精确的去重。虽然该方法适用于任何文本处理工作流,但在大语言模型(LLM)生态系统(如检索增强生成RAG)中效果尤为显著。实证评估显示,在保持绝对数据保真度的前提下,输入数据量减少了13.9%(低冗余数据集)至71%以上(高冗余流水线)。此外,本文详细阐述了通过模型上下文协议(MCP)实现的集成架构,支持在主流IDE和自主智能体中进行安全、零网络拦截的部署,并展示了高达8.7 GB/s的持续处理性能。
🔬 方法详解
问题定义:在大规模检索增强生成(RAG)等LLM应用中,输入语料库存在大量冗余文本,导致推理阶段的上下文窗口被无效填充,增加了计算开销并降低了处理效率。
核心思路:通过本地优先的确定性去重机制,在数据进入模型推理前剔除重复片段。设计目标是实现极高的吞吐量,同时确保去重过程是“字节精确”的,即不丢失任何原始语义信息。
技术框架:系统核心由高效的哈希索引模块构成,采用开放寻址(Open-Addressing)的平坦哈希集结构,并集成xxHash3-64作为哈希函数,以最大化CPU缓存命中率和SIMD指令集的并行处理能力。
关键创新:Merlin通过模型上下文协议(MCP)实现了与IDE及自主智能体的无缝集成,无需网络拦截即可在本地完成数据流优化,实现了高性能与安全性的平衡。
关键设计:采用了针对现代处理器架构优化的内存布局,避免了传统链式哈希表的指针跳转开销;通过确定性算法保证了在不同运行环境下输出的一致性,确保了数据处理的绝对保真度。
🖼️ 关键图片
📊 实验亮点
实验结果显示,Merlin在低冗余数据集上实现了13.9%的输入缩减,而在高冗余流水线中缩减幅度超过71%。系统在保持数据绝对保真度的同时,达到了高达8.7 GB/s的持续处理吞吐量,显著优于传统的去重方案,证明了其在处理大规模实时数据流时的卓越性能。
🎯 应用场景
Merlin主要应用于大语言模型推理流水线,特别是检索增强生成(RAG)系统。通过在本地预处理阶段剔除冗余上下文,它能显著降低Token消耗并提升推理速度。此外,该技术还可广泛应用于大规模文本语料库清洗、IDE插件开发以及自主智能体的数据预处理环节,具有极高的工程实用价值。
📄 摘要(原文)
Data-intensive applications, ranging from large-scale retrieval systems to advanced data pipelines, are increasingly bottlenecked by the processing of highly redundant text corpora. We present Merlin, a local-first, agnostic, high-throughput deduplication and context optimization engine designed to mitigate these inefficiencies. Utilizing a highly optimized, SIMD-friendly open-addressing flat hash set combined with xxHash3-64, Merlin performs rapid, byte-exact deduplication of text passages and data chunks. While broadly applicable to any text-processing workflow, its impact is particularly pronounced in Large Language Model (LLM) ecosystems, such as Retrieval-Augmented Generation (RAG). Our empirical evaluations demonstrate an input reduction ranging from 13.9% in low-redundancy datasets to over 71% in high-redundancy pipelines, maintaining absolute data fidelity. Furthermore, we detail the system's integration architecture via the Model Context Protocol (MCP), enabling secure, zero-network-interception deployment across major IDEs and autonomous agents. This paper outlines the core algorithmic design, performance benchmarks, and the architectural principles required to process data at sustained speeds of up to 8.7 GB/s.