Efficient Low-Resource Language Adaptation via Multi-Source Dynamic Logit Fusion

📄 arXiv: 2604.18106v1 📥 PDF

作者: Chen Zhang, Jiuheng Lin, Zhiyuan Liao, Yansong Feng

分类: cs.CL

发布日期: 2026-04-20

备注: ACL 2026


💡 一句话要点

提出TriMix,通过多源动态Logit融合实现高效的低资源语言模型适配

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源语言 模型适配 Logit融合 动态权重 持续预训练

📋 核心要点

  1. 现有Proxy Tuning方法在低资源语言环境下,大型语言模型能力不足,易淹没小型模型的知识。
  2. TriMix通过动态融合来自小型LRL模型、高资源任务模型和大型模型的logits,平衡不同来源的能力。
  3. 实验表明,TriMix在多种模型和低资源语言上均优于现有方法,且强调了小型LRL模型的重要性。

📝 摘要(中文)

本文提出了一种名为TriMix的测试时Logit融合框架,旨在解决低资源语言(LRL)环境下,大型语言模型(LLM)适配面临的任务数据和计算资源稀缺问题。尽管Proxy Tuning提供了一种logit层面的策略来引入缩放效应,但由于大型模型在LRL上的能力较弱,可能会淹没小型专业模型的知识,导致其在LRL环境中表现不佳。TriMix动态地平衡来自三个不同来源的能力:来自持续预训练的小型模型的LRL能力、来自高资源语言指令微调的任务能力以及大型模型的缩放优势。该方法具有数据和计算效率,无需LRL任务标注,只需对小型模型进行持续预训练。在四个模型家族和八种LRL上的实验表明,TriMix始终优于单模型基线和Proxy Tuning。分析表明,优先考虑小型LRL专业模型的logits对于成功至关重要,这挑战了普遍存在的大型模型主导的假设。

🔬 方法详解

问题定义:论文旨在解决低资源语言(LRL)环境下,如何高效地将大型语言模型(LLM)适配到特定任务的问题。现有方法,如Proxy Tuning,虽然尝试利用大型模型的缩放效应,但由于大型模型本身在LRL上的能力较弱,其logits可能会主导融合过程,从而降低模型在LRL上的性能。因此,如何在LRL数据稀缺的情况下,有效利用不同模型的优势,是一个关键挑战。

核心思路:TriMix的核心思路是动态地融合来自三个不同来源的logits:一个是专门针对LRL进行持续预训练的小型模型,它具有较强的LRL语言能力;另一个是在高资源语言上进行指令微调的模型,它具有较强的任务能力;第三个是大型模型,它具有缩放优势。通过动态调整这三个来源的权重,TriMix能够在测试时根据输入样本的特点,自适应地选择最合适的模型组合。

技术框架:TriMix框架包含三个主要组成部分:LRL专业模型、任务模型和大型模型。LRL专业模型通过在LRL数据上进行持续预训练获得,任务模型通过在高资源语言数据上进行指令微调获得,大型模型则直接使用预训练好的模型。在测试时,对于给定的输入样本,三个模型分别生成logits,然后通过一个动态权重计算模块,根据输入样本的特征,计算出每个模型的权重。最后,将三个模型的logits按照权重进行加权融合,得到最终的预测结果。

关键创新:TriMix的关键创新在于其动态logit融合机制。与传统的静态logit融合方法不同,TriMix能够根据输入样本的特点,自适应地调整不同模型的权重。这种动态调整机制使得TriMix能够更好地平衡不同模型的优势,从而提高模型在LRL上的性能。此外,TriMix强调了小型LRL专业模型的重要性,挑战了普遍存在的大型模型主导的假设。

关键设计:TriMix的关键设计包括:1) 使用持续预训练来增强小型模型在LRL上的能力;2) 使用指令微调来增强模型在特定任务上的能力;3) 设计一个动态权重计算模块,根据输入样本的特征,自适应地调整不同模型的权重。动态权重计算模块可以使用各种机器学习模型,如神经网络或决策树。论文中可能使用了特定的损失函数来训练动态权重计算模块,以确保其能够准确地预测不同模型的权重。(具体细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TriMix在八种低资源语言上均优于单模型基线和Proxy Tuning方法。具体性能提升数据未知,但论文强调TriMix能够显著提高模型在LRL上的性能,并验证了优先考虑小型LRL专业模型的logits对于成功的关键作用。这些结果表明TriMix是一种有效且高效的LRL模型适配方法。

🎯 应用场景

TriMix方法可应用于各种低资源语言的自然语言处理任务,例如机器翻译、文本分类、问答系统等。该方法能够有效利用有限的LRL数据,提高模型在LRL上的性能,从而促进LRL的信息获取和交流。此外,该方法还可以应用于其他数据稀缺的场景,例如罕见疾病诊断、小众商品推荐等。

📄 摘要(原文)

Adapting large language models (LLMs) to low-resource languages (LRLs) is constrained by the scarcity of task data and computational resources. Although Proxy Tuning offers a logit-level strategy for introducing scaling effects, it often fails in LRL settings because the large model's weak LRL competence might overwhelm the knowledge of specialized smaller models. We thus propose TriMix, a test-time logit fusion framework that dynamically balances capabilities from three different sources: LRL competence from a continually pretrained small model, task competence from high-resource language instruction tuning, and the scaling benefits of large models. It is data- and compute-efficient, requiring no LRL task annotations, and only continual pretraining on a small model. Experiments across four model families and eight LRLs show that TriMix consistently outperforms single-model baselines and Proxy Tuning. Our analysis reveals that prioritizing the small LRL-specialized model's logits is crucial for success, challenging the prevalent large-model-dominant assumption.