Unlocking Noisy Real-World Corpora for Foundation Model Pre-Training via Quality-Aware Tokenization

📄 arXiv: 2602.06394v1 📥 PDF

作者: Arvid E. Gollwitzer, Paridhi Latawa, David de Gruijl, Deepak A. Subramanian, Adrián Noriega de la Colina

分类: cs.AI, cs.CE, q-bio.GN, q-fin.CP

发布日期: 2026-02-06


💡 一句话要点

提出QA-Token,通过质量感知分词提升噪声数据上预训练模型效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 质量感知分词 噪声数据 预训练模型 强化学习 双层优化

📋 核心要点

  1. 现有分词方法忽略了真实世界语料库中的噪声,导致在处理这些数据时效果不佳,限制了预训练模型的性能。
  2. QA-Token通过将数据质量信息融入词汇构建过程,优化分词策略,从而更好地处理含噪声的语料库。
  3. 实验表明,QA-Token在基因组学和金融领域均取得了显著提升,并在大规模语料库上实现了更优的病原体检测性能。

📝 摘要(中文)

本文提出了一种质量感知分词方法(QA-Token),旨在解决现有分词方法在处理含噪声的真实世界语料库时,因未考虑信号质量而导致的性能瓶颈。QA-Token将数据可靠性直接融入词汇构建过程,主要贡献包括:(i)一个双层优化公式,联合优化词汇构建和下游任务性能;(ii)一种强化学习方法,通过质量感知的奖励学习合并策略,并保证收敛性;(iii)一种通过Gumbel-Softmax松弛实现的自适应参数学习机制,用于端到端优化。实验结果表明,QA-Token在基因组学(变异调用F1值提升6.7个百分点)和金融领域(夏普比率提升30%)均取得了显著改进。在基础模型规模上,对包含1.7万亿碱基对的预训练语料库进行分词,实现了最先进的病原体检测性能(MCC为94.53),同时减少了15%的token数量。该方法为基础模型训练解锁了包含petabase级别基因组序列和terabyte级别金融时间序列的噪声真实世界语料库,且无需推理开销。

🔬 方法详解

问题定义:现有分词方法在处理真实世界中包含大量噪声的数据时,没有考虑到数据质量的差异,导致分词结果不理想,进而影响下游任务的性能。例如,基因组数据中可能存在测序错误,金融时间序列数据可能包含异常值或错误记录。这些噪声会干扰分词器的学习,导致生成次优的词汇表。

核心思路:QA-Token的核心思路是将数据质量信息直接融入到词汇构建过程中。通过对不同质量的数据赋予不同的权重,引导分词器学习更可靠的词汇表。具体来说,该方法通过优化一个双层目标函数,同时考虑词汇构建和下游任务的性能,从而找到一个在噪声环境下表现最佳的词汇表。

技术框架:QA-Token的整体框架包含三个主要组成部分:1) 双层优化公式,用于联合优化词汇构建和下游任务性能;2) 基于强化学习的合并策略学习方法,利用质量感知的奖励函数引导学习过程;3) 基于Gumbel-Softmax松弛的自适应参数学习机制,实现端到端优化。首先,利用双层优化公式定义了问题。然后,使用强化学习方法学习最优的合并策略,该策略根据数据质量决定如何合并token。最后,使用Gumbel-Softmax松弛技术,将离散的合并操作转化为连续的参数学习问题,从而实现端到端优化。

关键创新:QA-Token最关键的创新在于其质量感知的分词策略。与传统的分词方法不同,QA-Token能够根据数据的可靠性动态调整分词策略,从而更好地适应含噪声的真实世界语料库。这种质量感知能力使得QA-Token能够学习到更鲁棒的词汇表,提高下游任务的性能。

关键设计:在双层优化公式中,上层目标是最大化下游任务的性能,下层目标是优化词汇表的构建。强化学习部分,奖励函数的设计至关重要,它需要能够准确反映数据质量对分词结果的影响。Gumbel-Softmax松弛技术的使用,使得整个模型可以进行端到端训练,避免了传统方法中需要手动调整参数的问题。具体参数设置和损失函数细节未在摘要中详细说明,属于未知信息。

📊 实验亮点

实验结果表明,QA-Token在基因组学(变异调用F1值提升6.7个百分点)和金融领域(夏普比率提升30%)均取得了显著改进。在大规模语料库上,QA-Token实现了最先进的病原体检测性能(MCC为94.53),同时减少了15%的token数量。这些结果充分证明了QA-Token在处理含噪声数据方面的优势。

🎯 应用场景

QA-Token具有广泛的应用前景,尤其是在处理包含大量噪声的真实世界数据时。例如,在基因组学领域,可以用于提高变异调用的准确性;在金融领域,可以用于改善量化交易策略的性能。此外,该方法还可以应用于自然语言处理、语音识别等领域,提高模型在噪声环境下的鲁棒性。未来,QA-Token有望成为预训练模型处理真实世界数据的关键技术。

📄 摘要(原文)

Current tokenization methods process sequential data without accounting for signal quality, limiting their effectiveness on noisy real-world corpora. We present QA-Token (Quality-Aware Tokenization), which incorporates data reliability directly into vocabulary construction. We make three key contributions: (i) a bilevel optimization formulation that jointly optimizes vocabulary construction and downstream performance, (ii) a reinforcement learning approach that learns merge policies through quality-aware rewards with convergence guarantees, and (iii) an adaptive parameter learning mechanism via Gumbel-Softmax relaxation for end-to-end optimization. Our experimental evaluation demonstrates consistent improvements: genomics (6.7 percentage point F1 gain in variant calling over BPE), finance (30% Sharpe ratio improvement). At foundation scale, we tokenize a pretraining corpus comprising 1.7 trillion base-pairs and achieve state-of-the-art pathogen detection (94.53 MCC) while reducing token count by 15%. We unlock noisy real-world corpora, spanning petabases of genomic sequences and terabytes of financial time series, for foundation model training with zero inference overhead.