Pantagruel: Unified Self-Supervised Encoders for French Text and Speech
作者: Phuong-Hang Le, Valentin Pelloin, Arnault Chatelain, Maryem Bouziane, Mohammed Ghennai, Qianwen Guan, Kirill Milintsevich, Salima Mdhaffar, Aidan Mannion, Nils Defauw, Shuyue Gu, Alexandre Audibert, Marco Dinarelli, Yannick Estève, Lorraine Goeuriot, Steffen Lalande, Nicolas Hervé, Maximin Coavoux, François Portet, Étienne Ollion, Marie Candito, Maxime Peyrard, Solange Rossato, Benjamin Lecouteux, Aurélie Nardy, Gilles Sérasset, Vincent Segonne, Solène Evain, Diandra Fabre, Didier Schwab
分类: cs.CL
发布日期: 2026-01-09
💡 一句话要点
Pantagruel:用于法语文本和语音的统一自监督编码器
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自监督学习 法语 语音识别 自然语言处理 多模态学习 表征学习 文本分类
📋 核心要点
- 现有方法通常针对文本和语音模态分别设计目标,忽略了跨模态的潜在关联,限制了模型的泛化能力。
- Pantagruel在特征空间中学习上下文相关的目标表示,允许模态特定的编码器更有效地捕获语言和声学规律。
- Pantagruel在法语基准测试中表现出与或优于CamemBERT、FlauBERT等基线的性能,验证了特征空间自监督的有效性。
📝 摘要(中文)
我们发布了Pantagruel模型,这是一系列用于法语文本和语音的全新自监督编码器模型。Pantagruel没有预测特定于模态的目标(如文本token或语音单元),而是在特征空间中学习上下文相关的目标表示,从而使特定于模态的编码器能够更有效地捕获语言和声学规律。独立的模型在大规模法语语料库上进行预训练,包括用于文本的Wikipedia、OSCAR和CroissantLLM,以及用于语音的MultilingualLibriSpeech、LeBenchmark和INA-100k。INA-100k是一个新引入的10万小时法语音频语料库,来源于法国国家视听研究所(INA)的档案,提供了高度多样化的音频数据。我们在广泛的下游任务中评估Pantagruel,涵盖文本和语音两种模态,包括来自FLUE或LeBenchmark等标准法语基准的任务。在这些任务中,Pantagruel模型与CamemBERT、FlauBERT和LeBenchmark2.0等强大的法语基线相比,表现出具有竞争力的或更优越的性能,同时保持了可以无缝处理语音或文本输入的共享架构。这些结果证实了特征空间自监督目标对于法语表征学习的有效性,并强调了Pantagruel作为多模态语音-文本理解的强大基础。
🔬 方法详解
问题定义:论文旨在构建一个统一的法语文本和语音自监督编码器。现有方法通常针对文本(例如,预测masked tokens)和语音(例如,预测语音单元)模态分别设计目标,这限制了模型学习跨模态共享表示的能力,并且可能无法充分利用两种模态之间的互补信息。此外,针对特定模态的目标函数可能无法最好地捕捉语言和声学规律。
核心思路:Pantagruel的核心思路是在特征空间中学习上下文相关的目标表示。这意味着模型不是直接预测文本token或语音单元,而是学习将文本和语音编码到共享的特征空间中,并在这个空间中进行自监督学习。通过这种方式,模型可以更好地捕捉语言和声学规律,并学习跨模态的共享表示。
技术框架:Pantagruel使用一个共享的架构,可以处理文本和语音输入。该架构包含两个主要的模块:模态特定的编码器和特征空间表示学习模块。模态特定的编码器负责将文本或语音输入转换为特征向量。特征空间表示学习模块负责学习上下文相关的目标表示,并使用自监督学习目标来训练模型。模型在大型法语语料库上进行预训练,包括文本数据(Wikipedia、OSCAR、CroissantLLM)和语音数据(MultilingualLibriSpeech、LeBenchmark、INA-100k)。
关键创新:Pantagruel的关键创新在于使用特征空间自监督学习目标。与传统的模态特定目标相比,这种方法可以更好地捕捉语言和声学规律,并学习跨模态的共享表示。此外,Pantagruel使用了新发布的10万小时法语音频语料库INA-100k,这为模型的训练提供了丰富的数据。
关键设计:Pantagruel的具体架构和损失函数细节未知。论文中提到使用了模态特定的编码器,但没有详细说明其具体结构。自监督学习目标的设计是关键,但论文中没有给出具体的公式或算法描述。推测可能使用了对比学习或masked autoencoding等方法,在特征空间中进行自监督训练。
📊 实验亮点
Pantagruel在多个法语下游任务中取得了具有竞争力的或更优越的性能,与CamemBERT、FlauBERT和LeBenchmark2.0等强大的法语基线相比。例如,在FLUE和LeBenchmark等标准法语基准测试中,Pantagruel展现了良好的性能。具体性能数据和提升幅度未知,但总体结果表明Pantagruel在法语表征学习方面具有显著优势。
🎯 应用场景
Pantagruel模型可应用于多种法语语音和文本相关的任务,例如语音识别、文本分类、情感分析、机器翻译等。其统一的架构使其能够无缝处理语音和文本输入,为多模态语音-文本理解提供了一个强大的基础。该模型还有助于促进法语自然语言处理技术的发展,并为其他低资源语言的自监督学习提供借鉴。
📄 摘要(原文)
We release Pantagruel models, a new family of self-supervised encoder models for French text and speech. Instead of predicting modality-tailored targets such as textual tokens or speech units, Pantagruel learns contextualized target representations in the feature space, allowing modality-specific encoders to capture linguistic and acoustic regularities more effectively. Separate models are pre-trained on large-scale French corpora, including Wikipedia, OSCAR and CroissantLLM for text, together with MultilingualLibriSpeech, LeBenchmark, and INA-100k for speech. INA-100k is a newly introduced 100,000-hour corpus of French audio derived from the archives of the Institut National de l'Audiovisuel (INA), the national repository of French radio and television broadcasts, providing highly diverse audio data. We evaluate Pantagruel across a broad range of downstream tasks spanning both modalities, including those from the standard French benchmarks such as FLUE or LeBenchmark. Across these tasks, Pantagruel models show competitive or superior performance compared to strong French baselines such as CamemBERT, FlauBERT, and LeBenchmark2.0, while maintaining a shared architecture that can seamlessly handle either speech or text inputs. These results confirm the effectiveness of feature-space self-supervised objectives for French representation learning and highlight Pantagruel as a robust foundation for multimodal speech-text understanding.