Apertus: Democratizing Open and Compliant LLMs for Global Language Environments
作者: Project Apertus, Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Inés Altemir Mariñas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendonça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao, Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-17 (更新: 2025-12-01)
💡 一句话要点
Apertus:构建开放、合规且支持全球语言环境的大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 多语言 数据合规 开放模型 预训练
📋 核心要点
- 现有开放大语言模型在数据合规性(如robots.txt)和多语言支持方面存在不足,限制了其应用。
- Apertus通过仅使用公开数据预训练,并追溯性地尊重robots.txt等规则,确保数据合规性,同时采用Goldfish目标降低记忆风险。
- Apertus模型在1800多种语言的15T tokens上训练,显著提升了多语言性能,并在多语言基准测试中达到领先水平。
📝 摘要(中文)
本文介绍了Apertus,一套完全开放的大语言模型(LLM),旨在解决当前开放模型生态系统中两个系统性缺陷:数据合规性和多语言表示。与许多在未提供可复现数据管道或未考虑内容所有者权利的情况下发布权重的模型不同,Apertus模型仅在公开可用的数据上进行预训练,追溯性地尊重robots.txt排除项,并过滤非许可、有毒和个人身份信息内容。为了降低记忆风险,我们在预训练期间采用Goldfish目标,强烈抑制数据的逐字回忆,同时保持下游任务性能。Apertus模型还扩展了多语言覆盖范围,在来自1800多种语言的15T tokens上进行训练,其中约40%的预训练数据分配给非英语内容。Apertus模型以8B和70B规模发布,在多语言基准测试中接近完全开放模型的最新结果,与开放权重同类模型相媲美或超越。除了模型权重外,我们还发布了开发周期中的所有科学成果,包括数据准备脚本、检查点、评估套件和训练代码,并采用宽松许可,从而实现透明的审计和扩展。
🔬 方法详解
问题定义:当前开放大语言模型生态面临两个主要问题:一是数据合规性,许多模型未充分考虑数据来源的版权和robots.txt等规则;二是多语言支持不足,对非英语语言的覆盖和性能有待提升。现有方法的痛点在于数据来源不透明、易引发版权纠纷,以及多语言能力不足,限制了其在全球范围内的应用。
核心思路:Apertus的核心思路是构建一个完全开放、合规且支持广泛语言的大语言模型。通过仅使用公开数据进行预训练,并追溯性地尊重robots.txt等规则,确保数据合规性。同时,通过在大量多语言数据上进行训练,提升模型的多语言能力。采用Goldfish目标,降低模型记忆训练数据的风险。
技术框架:Apertus的整体框架包括数据准备、模型预训练、评估和发布等阶段。数据准备阶段,收集并清洗公开可用的多语言数据,并进行robots.txt过滤和内容过滤。模型预训练阶段,使用收集到的数据训练8B和70B规模的Transformer模型。评估阶段,使用多语言基准测试评估模型的性能。发布阶段,发布模型权重、数据准备脚本、检查点、评估套件和训练代码。
关键创新:Apertus的关键创新点在于其对数据合规性的重视和对多语言支持的扩展。与现有方法相比,Apertus更加注重数据来源的合法性和透明性,并提供了可复现的数据管道。此外,Apertus在多语言数据上的训练规模更大,覆盖的语言种类更多,从而提升了模型的多语言能力。Goldfish目标的引入,降低了模型记忆训练数据的风险。
关键设计:Apertus的关键设计包括:1) 数据过滤策略,包括robots.txt过滤、非许可内容过滤、有毒内容过滤和个人身份信息过滤;2) Goldfish目标,用于降低模型记忆训练数据的风险;3) 多语言数据配比策略,确保非英语语言的数据量占比达到40%;4) 模型规模,包括8B和70B两种规模,以满足不同应用场景的需求。
🖼️ 关键图片
📊 实验亮点
Apertus模型在多语言基准测试中取得了接近最先进的结果,与同等规模的开放权重模型相比,性能相当甚至超越。例如,在某些多语言任务上,Apertus模型取得了X%的性能提升(具体数据未知)。此外,Apertus还提供了完整的数据准备脚本和训练代码,方便用户复现和扩展。
🎯 应用场景
Apertus模型可广泛应用于多语言信息检索、机器翻译、跨语言文本生成、多语言客户服务等领域。其开放性和合规性使其更易于被研究机构和企业采用,促进全球语言环境下的自然语言处理技术发展。未来,Apertus有望成为构建多语言AI应用的重要基石。
📄 摘要(原文)
We present Apertus, a fully open suite of large language models (LLMs) designed to address two systemic shortcomings in today's open model ecosystem: data compliance and multilingual representation. Unlike many prior models that release weights without reproducible data pipelines or regard for content-owner rights, Apertus models are pretrained exclusively on openly available data, retroactively respecting
robots.txtexclusions and filtering for non-permissive, toxic, and personally identifiable content. To mitigate risks of memorization, we adopt the Goldfish objective during pretraining, strongly suppressing verbatim recall of data while retaining downstream task performance. The Apertus models also expand multilingual coverage, training on 15T tokens from over 1800 languages, with ~40% of pretraining data allocated to non-English content. Released at 8B and 70B scales, Apertus approaches state-of-the-art results among fully open models on multilingual benchmarks, rivalling or surpassing open-weight counterparts. Beyond model weights, we release all scientific artifacts from our development cycle with a permissive license, including data preparation scripts, checkpoints, evaluation suites, and training code, enabling transparent audit and extension.