Polite on the Surface, Wrong in Practice: A Curated Dataset for Fixing Honorific Failures in Multilingual Bangla Generation

作者: Md. Asaduzzaman Shuvo, Mahedi Hasan, Md. Tashin Parvez, Azizul Haque Noman, Md. Shafayet Hossain Ovi

分类: cs.CL

发布日期: 2026-05-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出BLADE数据集，提升孟加拉语生成模型在礼貌性和结构一致性上的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 孟加拉语生成 低资源语言 指令调优 语用对齐 敬语处理

📋 核心要点

现有MLLM在孟加拉语等低资源场景下，难以处理结构变化、地域习语和敬语一致性等问题。
构建文化对齐的指令调优数据集BLADE，并结合参数高效微调方法，提升模型在孟加拉语生成中的语用能力。
实验表明，在BLADE上微调的模型在结构保真度和敬语对齐方面取得了显著提升，为低资源多语言文本生成提供了基准。

📝 摘要（中文）

多语言大型语言模型（MLLMs）在跨语言对话能力方面取得了显著进展，但对文化细微差别和上下文相关的交流进行建模仍然是一个关键瓶颈。特别是在孟加拉语等低资源环境中，现有模型在处理结构变化、地域习语和敬语一致性方面存在严重的语用差距。为了解决这一局限性，我们引入了一个新的、文化对齐的指令调优数据集——BangLa Application and DialoguE generation (BLADE)，以及包含4196个精心策划的交互对的基准测试框架。我们利用该资源，通过LoRA适配器在4-bit NormalFloat (NF4) 量化框架中进行参数高效微调，从而系统地微调和评估领先的开放权重架构，包括DeepSeek-8B和LLaMA-3.2-3B。我们的实证评估表明，在我们的数据集上微调的模型在结构保真度和敬语对齐方面产生了显著的改进，为弥合低资源多语言文本生成中的语用差异提供了严格的基准。

🔬 方法详解

问题定义：论文旨在解决多语言大型语言模型（MLLMs）在孟加拉语等低资源语言环境中，生成文本时存在的语用差距问题。具体而言，现有模型难以准确处理孟加拉语中的结构变化、地域习语以及敬语一致性，导致生成的文本在文化上不地道，甚至可能产生冒犯。现有方法缺乏针对孟加拉语的专门训练数据和评估基准，难以有效提升模型在该语言上的语用能力。

核心思路：论文的核心思路是构建一个高质量的、文化对齐的指令调优数据集BLADE，并利用该数据集对现有MLLMs进行微调，从而提升模型在孟加拉语生成中的语用能力。通过指令调优，模型可以学习到如何在不同的上下文中生成符合文化规范的文本，包括正确使用敬语、处理结构变化和地域习语等。

技术框架：整体框架包括以下几个主要步骤：1) 构建BLADE数据集，包含4196个精心策划的交互对，涵盖不同的场景和语用需求；2) 选择合适的MLLMs作为基础模型，例如DeepSeek-8B和LLaMA-3.2-3B；3) 利用LoRA适配器在4-bit NormalFloat (NF4) 量化框架中进行参数高效微调；4) 使用BLADE数据集对微调后的模型进行评估，并与其他基线模型进行比较。

关键创新：论文的关键创新在于构建了BLADE数据集，这是一个专门针对孟加拉语语用问题的指令调优数据集。该数据集的特点是文化对齐，包含了丰富的场景和语用需求，可以有效提升模型在孟加拉语生成中的语用能力。此外，论文还采用了参数高效微调方法，可以在有限的计算资源下对大型语言模型进行微调。

关键设计：BLADE数据集的设计考虑了孟加拉语的文化特点和语用需求，包含了不同的人物关系、社交场合和对话场景。数据集中的每个交互对都包含一个指令和一个对应的回复，指令明确指定了所需的语用效果，例如使用特定的敬语形式。在微调过程中，论文采用了LoRA适配器，这是一种参数高效的微调方法，可以在不修改原始模型参数的情况下，通过添加少量可训练的参数来调整模型的行为。此外，论文还使用了4-bit NormalFloat (NF4) 量化框架，可以进一步降低模型的内存占用和计算成本。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在BLADE数据集上微调的模型在结构保真度和敬语对齐方面取得了显著提升。与基线模型相比，微调后的模型能够生成更符合孟加拉语文化规范的文本，有效降低了语用错误。具体性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于智能客服、机器翻译、社交媒体内容生成等领域，提升孟加拉语用户与AI系统交互的体验。通过生成更符合文化规范和语用习惯的文本，可以增强用户对AI系统的信任感和满意度。未来，该方法可以推广到其他低资源语言，促进多语言AI技术的发展。

📄 摘要（原文）

Recent advances in Multilingual Large Language Models (MLLMs) have significantly enhanced cross-lingual conversational capabilities, yet modeling culturally nuanced and context-dependent communication remains a critical bottleneck. Specifically, existing state-of-the-art models exhibit a severe pragmatic gap when handling structural variations, regional idioms, and honorific consistencies in low-resource contexts like Bangla. To address this limitation, we introduce a novel, culturally aligned instruction-tuning dataset for \textbf{BangLa Application and DialoguE generation - BLADE} and benchmarking framework comprising $4,196$ meticulously curated interaction pairs. We leverage this resource to systematically fine-tune and evaluate leading open-weight architectures, including DeepSeek-8B and LLaMA-3.2-3B, utilizing parameter-efficient fine-tuning via LoRA adapters in a 4-bit NormalFloat (NF4) quantization framework. Our empirical evaluations demonstrate that models fine-tuned on our dataset yield substantial improvements in structural fidelity and honorific alignment, providing a rigorous benchmark for bridging pragmatic disparities in low-resource multilingual text generation. Code and dataset: https://github.com/ashuvo25/Bangla_Application_LLM/tree/main

Polite on the Surface, Wrong in Practice: A Curated Dataset for Fixing Honorific Failures in Multilingual Bangla Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理