Unlocking Noisy Real-World Corpora for Foundation Model Pre-Training via Quality-Aware Tokenization

作者: Arvid E. Gollwitzer, Paridhi Latawa, David de Gruijl, Deepak A. Subramanian, Adrián Noriega de la Colina

分类: cs.AI, cs.CE, q-bio.GN, q-fin.CP

发布日期: 2026-02-06

💡 一句话要点

提出QA-Token，通过质量感知分词提升噪声数据上预训练模型效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 质量感知分词 噪声数据 预训练模型 强化学习 双层优化

📋 核心要点

现有分词方法忽略了真实世界语料库中的噪声，导致在处理这些数据时效果不佳，限制了预训练模型的性能。
QA-Token通过将数据质量信息融入词汇构建过程，优化分词策略，从而更好地处理含噪声的语料库。
实验表明，QA-Token在基因组学和金融领域均取得了显著提升，并在大规模语料库上实现了更优的病原体检测性能。

📝 摘要（中文）

本文提出了一种质量感知分词方法（QA-Token），旨在解决现有分词方法在处理含噪声的真实世界语料库时，因未考虑信号质量而导致的性能瓶颈。QA-Token将数据可靠性直接融入词汇构建过程，主要贡献包括：(i)一个双层优化公式，联合优化词汇构建和下游任务性能；(ii)一种强化学习方法，通过质量感知的奖励学习合并策略，并保证收敛性；(iii)一种通过Gumbel-Softmax松弛实现的自适应参数学习机制，用于端到端优化。实验结果表明，QA-Token在基因组学（变异调用F1值提升6.7个百分点）和金融领域（夏普比率提升30%）均取得了显著改进。在基础模型规模上，对包含1.7万亿碱基对的预训练语料库进行分词，实现了最先进的病原体检测性能（MCC为94.53），同时减少了15%的token数量。该方法为基础模型训练解锁了包含petabase级别基因组序列和terabyte级别金融时间序列的噪声真实世界语料库，且无需推理开销。

🔬 方法详解

问题定义：现有分词方法在处理真实世界中包含大量噪声的数据时，没有考虑到数据质量的差异，导致分词结果不理想，进而影响下游任务的性能。例如，基因组数据中可能存在测序错误，金融时间序列数据可能包含异常值或错误记录。这些噪声会干扰分词器的学习，导致生成次优的词汇表。

核心思路：QA-Token的核心思路是将数据质量信息直接融入到词汇构建过程中。通过对不同质量的数据赋予不同的权重，引导分词器学习更可靠的词汇表。具体来说，该方法通过优化一个双层目标函数，同时考虑词汇构建和下游任务的性能，从而找到一个在噪声环境下表现最佳的词汇表。

技术框架：QA-Token的整体框架包含三个主要组成部分：1) 双层优化公式，用于联合优化词汇构建和下游任务性能；2) 基于强化学习的合并策略学习方法，利用质量感知的奖励函数引导学习过程；3) 基于Gumbel-Softmax松弛的自适应参数学习机制，实现端到端优化。首先，利用双层优化公式定义了问题。然后，使用强化学习方法学习最优的合并策略，该策略根据数据质量决定如何合并token。最后，使用Gumbel-Softmax松弛技术，将离散的合并操作转化为连续的参数学习问题，从而实现端到端优化。

关键创新：QA-Token最关键的创新在于其质量感知的分词策略。与传统的分词方法不同，QA-Token能够根据数据的可靠性动态调整分词策略，从而更好地适应含噪声的真实世界语料库。这种质量感知能力使得QA-Token能够学习到更鲁棒的词汇表，提高下游任务的性能。

关键设计：在双层优化公式中，上层目标是最大化下游任务的性能，下层目标是优化词汇表的构建。强化学习部分，奖励函数的设计至关重要，它需要能够准确反映数据质量对分词结果的影响。Gumbel-Softmax松弛技术的使用，使得整个模型可以进行端到端训练，避免了传统方法中需要手动调整参数的问题。具体参数设置和损失函数细节未在摘要中详细说明，属于未知信息。

📊 实验亮点

实验结果表明，QA-Token在基因组学（变异调用F1值提升6.7个百分点）和金融领域（夏普比率提升30%）均取得了显著改进。在大规模语料库上，QA-Token实现了最先进的病原体检测性能（MCC为94.53），同时减少了15%的token数量。这些结果充分证明了QA-Token在处理含噪声数据方面的优势。

🎯 应用场景

QA-Token具有广泛的应用前景，尤其是在处理包含大量噪声的真实世界数据时。例如，在基因组学领域，可以用于提高变异调用的准确性；在金融领域，可以用于改善量化交易策略的性能。此外，该方法还可以应用于自然语言处理、语音识别等领域，提高模型在噪声环境下的鲁棒性。未来，QA-Token有望成为预训练模型处理真实世界数据的关键技术。

📄 摘要（原文）

Current tokenization methods process sequential data without accounting for signal quality, limiting their effectiveness on noisy real-world corpora. We present QA-Token (Quality-Aware Tokenization), which incorporates data reliability directly into vocabulary construction. We make three key contributions: (i) a bilevel optimization formulation that jointly optimizes vocabulary construction and downstream performance, (ii) a reinforcement learning approach that learns merge policies through quality-aware rewards with convergence guarantees, and (iii) an adaptive parameter learning mechanism via Gumbel-Softmax relaxation for end-to-end optimization. Our experimental evaluation demonstrates consistent improvements: genomics (6.7 percentage point F1 gain in variant calling over BPE), finance (30% Sharpe ratio improvement). At foundation scale, we tokenize a pretraining corpus comprising 1.7 trillion base-pairs and achieve state-of-the-art pathogen detection (94.53 MCC) while reducing token count by 15%. We unlock noisy real-world corpora, spanning petabases of genomic sequences and terabytes of financial time series, for foundation model training with zero inference overhead.

Unlocking Noisy Real-World Corpora for Foundation Model Pre-Training via Quality-Aware Tokenization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理