PARAM-1 BharatGen 2.9B Model

📄 arXiv: 2507.13390v1 📥 PDF

作者: Kundeshwar Pundalik, Piyush Sawarkar, Nihar Sahoo, Abhishek Shinde, Prateek Chanda, Vedant Goswami, Ajay Nagpal, Atul Singh, Viraj Thakur, Vijay Dewane, Aamod Thakur, Bhargav Patel, Smita Gautam, Bhagwan Panditi, Shyam Pawar, Madhav Kotcha, Suraj Racha, Saral Sureka, Pankaj Singh, Rishi Bal, Rohit Saluja, Ganesh Ramakrishnan

分类: cs.CL, cs.LG

发布日期: 2025-07-16


💡 一句话要点

PARAM-1:一个以印度语言多样性为核心的29亿参数语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 印度语言 语言多样性 预训练模型 代码切换 自然语言处理 文化对齐 SentencePiece

📋 核心要点

  1. 现有大型语言模型主要以英语为中心,忽略了印度等语言多样性地区的特殊需求和语言现象。
  2. PARAM-1通过架构和数据选择,从头开始构建,着重考虑印度语言的公平表示和文化对齐。
  3. 实验结果表明,PARAM-1不仅是一个通用的语言模型,而且为印度中心的应用提供了一个强大的基线。

📝 摘要(中文)

大型语言模型(LLMs)已成为强大的通用推理系统,但其发展仍然以英语为中心的数据、架构和优化范式为主导。这种排他性设计导致了印度等语言多样性地区的结构性代表性不足,该地区拥有超过20种官方语言和100多种方言,以及代码切换和双语现象。我们介绍了PARAM-1,一个29亿参数的仅解码器、仅文本的语言模型,从头开始训练,明确关注印度多样性的架构和语言。PARAM-1在仅包含印地语和英语的双语数据集上进行训练,该数据集非常注重富含事实、高质量的内容。它遵循三个核心原则:通过25%的语料库分配公平地表示印度语言;通过适应印度形态结构的SentencePiece分词器实现分词公平性;以及跨IndicQA、代码混合推理和社会语言稳健性任务的文化对齐评估基准。通过在预训练级别嵌入多样性,而不是将其推迟到事后对齐,PARAM-1为公平的基础建模提供了设计优先的蓝图。我们的结果表明,它既可以作为一种称职的通用模型,又可以作为以印度为中心的应用的强大基线。

🔬 方法详解

问题定义:现有的大型语言模型在很大程度上以英语为中心,未能充分代表和处理印度等语言多样性地区的语言特点,如多种官方语言、方言、代码切换和双语现象。这导致这些模型在处理印度相关任务时表现不佳,并且可能存在文化偏见。

核心思路:PARAM-1的核心思路是在模型设计的早期阶段就融入对印度语言多样性的考虑,而不是在后期进行调整。这包括在训练数据、分词器和评估基准中都体现对印度语言和文化的关注。通过这种设计优先的方法,PARAM-1旨在创建一个更公平、更适合印度特定需求的语言模型。

技术框架:PARAM-1是一个29亿参数的仅解码器、仅文本的语言模型。其训练流程包括以下几个主要阶段:1) 数据集构建:创建一个高质量的双语(印地语和英语)数据集,侧重于富含事实的内容。2) 分词器训练:使用SentencePiece算法训练一个适应印度语言形态结构的定制分词器。3) 模型预训练:在构建的数据集上从头开始训练PARAM-1模型。4) 评估:使用一系列针对印度语言和文化定制的基准来评估模型的性能。

关键创新:PARAM-1的关键创新在于其对印度语言多样性的设计优先方法。这体现在以下几个方面:1) 训练数据中对印度语言的公平分配(25%)。2) 针对印度语言形态结构优化的分词器。3) 文化对齐的评估基准,包括IndicQA、代码混合推理和社会语言稳健性任务。与现有方法相比,PARAM-1不是在英语模型的基础上进行微调或迁移学习,而是从一开始就将印度语言和文化融入到模型的设计中。

关键设计:PARAM-1的关键设计细节包括:1) 使用SentencePiece算法训练的分词器,该分词器能够更好地处理印度语言的形态变化。2) 训练数据集中印地语和英语的比例,确保印度语言得到充分的表示。3) 评估基准的选择,这些基准旨在评估模型在处理印度语言、文化和代码混合方面的能力。具体的参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

PARAM-1在多个印度语言相关的评估基准上表现出色,证明了其在处理印度语言和文化方面的能力。虽然摘要中没有提供具体的性能数据和对比基线,但强调了PARAM-1作为印度中心应用的强大基线,表明其性能优于或至少与现有模型相当。具体的提升幅度属于未知信息。

🎯 应用场景

PARAM-1的应用场景包括但不限于:印度语言的机器翻译、印地语和英语的代码混合文本处理、印度文化相关的问答系统、以及针对印度市场的自然语言理解应用。该模型可以作为印度语言处理任务的基线模型,并促进更多针对印度语言和文化的人工智能研究和应用。

📄 摘要(原文)

Large Language Models (LLMs) have emerged as powerful general-purpose reasoning systems, yet their development remains dominated by English-centric data, architectures, and optimization paradigms. This exclusionary design results in structural under-representation of linguistically diverse regions such as India, where over 20 official languages and 100+ dialects coexist alongside phenomena like code-switching and diglossia. We introduce PARAM-1, a 2.9B parameter decoder-only, text-only language model trained from scratch with an explicit architectural and linguistic focus on Indian diversity. PARAM-1 is trained on a bilingual dataset consisting of only Hindi and English, constructed with a strong focus on fact-rich, high-quality content. It is guided by three core principles: equitable representation of Indic languages through a 25% corpus allocation; tokenization fairness via a SentencePiece tokenizer adapted to Indian morphological structures; and culturally aligned evaluation benchmarks across IndicQA, code-mixed reasoning, and socio-linguistic robustness tasks. By embedding diversity at the pretraining level-rather than deferring it to post-hoc alignment-PARAM-1 offers a design-first blueprint for equitable foundation modeling. Our results demonstrate that it serves as both a competent general-purpose model and a robust baseline for India-centric applications.