Bangla Key2Text: Text Generation from Keywords for a Low Resource Language
作者: Tonmoy Talukder, G M Shahariar
分类: cs.CL
发布日期: 2026-04-21
备注: 18 pages, uses lrec2026.sty
💡 一句话要点
Bangla Key2Text:为低资源语言孟加拉语构建关键词到文本生成的大规模数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 关键词到文本生成 孟加拉语 低资源语言 数据集构建 序列到序列模型
📋 核心要点
- 现有孟加拉语关键词到文本生成缺乏大规模数据集,限制了监督学习方法的应用和性能提升。
- 论文提出Bangla Key2Text数据集,通过BERT关键词提取流水线从大规模孟加拉语新闻文本中构建关键词-文本对。
- 通过微调mT5和BanglaT5模型,实验证明在Bangla Key2Text数据集上进行任务特定微调能显著提升生成效果。
📝 摘要(中文)
本文介绍了 extit{Bangla Key2Text},这是一个包含260万个孟加拉语关键词-文本对的大规模数据集,专为低资源语言中的关键词驱动文本生成而设计。该数据集通过将基于BERT的关键词提取流程应用于数百万篇孟加拉语新闻文本而构建,将原始文章转换为适合监督学习的结构化关键词-文本对。为了在这个新的基准上建立基线性能,我们微调了两个序列到序列模型, exttt{mT5}和 exttt{BanglaT5},并使用多个自动指标和人工判断对它们进行了评估。实验结果表明,与零样本大型语言模型相比,特定于任务的微调显著提高了孟加拉语中关键词条件文本生成的效果。数据集、训练模型和代码已公开发布,以支持未来在孟加拉语自然语言生成和关键词到文本生成任务中的研究。
🔬 方法详解
问题定义:论文旨在解决低资源语言孟加拉语中关键词到文本的生成问题。现有方法要么依赖于小规模数据集,要么直接使用零样本的大型语言模型,缺乏针对孟加拉语的有效训练,导致生成文本质量不高。缺乏大规模数据集是主要痛点。
核心思路:论文的核心思路是构建一个大规模的孟加拉语关键词-文本对数据集,并在此数据集上微调现有的序列到序列模型。通过监督学习的方式,使模型能够更好地理解关键词与文本之间的关系,从而提高生成文本的质量和相关性。
技术框架:整体框架包含两个主要阶段:1) 数据集构建阶段:使用基于BERT的关键词提取流水线从大规模孟加拉语新闻文本中提取关键词,并与原始文本组成关键词-文本对。2) 模型训练阶段:选择mT5和BanglaT5两个序列到序列模型,在构建的数据集上进行微调。
关键创新:关键创新在于构建了大规模的Bangla Key2Text数据集,为孟加拉语关键词到文本生成任务提供了新的基准。此外,通过实验验证了在低资源语言上,针对特定任务进行微调的有效性,优于直接使用零样本大型语言模型。
关键设计:数据集构建方面,BERT关键词提取流水线的具体配置未知。模型训练方面,使用了mT5和BanglaT5两种模型,具体微调策略和超参数设置未知。损失函数采用标准的序列到序列模型的损失函数,具体细节未知。
📊 实验亮点
实验结果表明,在Bangla Key2Text数据集上微调mT5和BanglaT5模型,显著提高了孟加拉语关键词到文本生成的性能。与零样本大型语言模型相比,微调后的模型在多个自动评估指标和人工评估中均取得了更好的结果,证明了任务特定微调的有效性。具体性能提升幅度未知。
🎯 应用场景
该研究成果可应用于多个领域,例如新闻摘要生成、内容创作辅助、自动回复系统等。通过关键词生成文本,可以提高内容生成的效率和质量,尤其是在低资源语言环境下,具有重要的实际应用价值。未来可以进一步探索更复杂的模型结构和训练方法,提升生成文本的流畅性和多样性。
📄 摘要(原文)
This paper introduces \textit{Bangla Key2Text}, a large-scale dataset of $2.6$ million Bangla keyword--text pairs designed for keyword-driven text generation in a low-resource language. The dataset is constructed using a BERT-based keyword extraction pipeline applied to millions of Bangla news texts, transforming raw articles into structured keyword--text pairs suitable for supervised learning. To establish baseline performance on this new benchmark, we fine-tune two sequence-to-sequence models, \texttt{mT5} and \texttt{BanglaT5}, and evaluate them using multiple automatic metrics and human judgments. Experimental results show that task-specific fine-tuning substantially improves keyword-conditioned text generation in Bangla compared to zero-shot large language models. The dataset, trained models, and code are publicly released to support future research in Bangla natural language generation and keyword-to-text generation tasks.