WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data
作者: Ziheng Zhang, Yunzhong Hou, Naijing Liu, Liang Zheng
分类: cs.CL, cs.AI
发布日期: 2026-05-13
备注: https://github.com/Ziheng-Zhang-AUS/WARDEN
💡 一句话要点
提出WARDEN以解决濒危土著语言转录与翻译问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 转录 翻译 低资源语言 机器学习 音素转录 文化保护
📋 核心要点
- 核心问题:现有的转录和翻译方法依赖于大规模数据,而Wardaman语言的标注数据极为稀缺,仅有6小时。
- 方法要点:WARDEN采用独立的转录和翻译模型,先进行音素转录,再进行英语翻译,同时引入相关语言的知识以提升性能。
- 实验或效果:使用仅6小时的标注数据,WARDEN在性能上超越了更大规模的开源和专有模型,建立了强基线。
📝 摘要(中文)
本文介绍了WARDEN,一个早期语言模型系统,能够将濒危的澳大利亚土著语言Wardaman转录并翻译成英语。由于缺乏大规模训练数据,只有6小时的标注音频,传统的单一模型训练方法不再适用。因此,WARDEN设计为具有独立的转录和翻译模型,首先将Wardaman音频输入转化为音素转录,然后再将转录结果翻译为英语。此外,论文提出了两项技术以提升性能:在转录中,利用与Wardaman相似音素的巽他语初始化Wardaman标记,加速模型微调;在翻译中,编制Wardaman-英语词典并将其提供给大型语言模型,以增强推理能力。实验证明,这种两阶段设计在极低数据环境下优于数据需求较高的统一方法。
🔬 方法详解
问题定义:论文要解决的是如何在缺乏大规模标注数据的情况下,实现Wardaman语言的有效转录与翻译。现有方法通常依赖于大量数据进行训练,而Wardaman语言的标注数据仅有6小时,导致传统方法无法应用。
核心思路:论文提出的核心思路是将转录和翻译过程分开,设计独立的模型进行处理。通过这种方式,WARDEN能够更好地适应低资源环境,避免了对大规模数据的依赖。
技术框架:WARDEN的整体架构包括两个主要模块:转录模型和翻译模型。首先,转录模型将Wardaman音频输入转化为音素转录,接着翻译模型将音素转录翻译为英语。
关键创新:最重要的技术创新点在于采用了两阶段的设计思路,分别针对转录和翻译进行优化。这与现有方法的本质区别在于,传统方法通常是一个统一的模型,而WARDEN通过分开处理,能够在数据稀缺的情况下取得更好的效果。
关键设计:在转录模型中,使用与Wardaman相似音素的巽他语进行初始化,以加速微调过程;在翻译模型中,编制Wardaman-英语词典,并将其作为领域特定知识提供给大型语言模型,以增强翻译的准确性和合理性。
🖼️ 关键图片
📊 实验亮点
在实验中,WARDEN使用仅6小时的标注数据,表现出超越更大规模的开源和专有模型的能力,建立了强基线。具体性能数据未提供,但相较于传统方法,提升幅度显著,证明了其在极低数据环境下的有效性。
🎯 应用场景
该研究的潜在应用领域包括语言保护、文化传承和教育等。通过有效转录和翻译濒危语言,能够帮助更多人了解和学习这些语言,从而促进文化多样性和语言复兴。未来,该技术还可以扩展到其他低资源语言的处理,具有广泛的社会和学术价值。
📄 摘要(原文)
This paper introduces WARDEN, an early language model system capable of transcribing and translating Wardaman, an endangered Australian indigenous language into English. The significant challenge we face is the lack of large-scale training data: in fact, we only have 6 hours of annotated audio. Therefore, while it is common practice to train a single model for transcription and translation using large datasets (like English to French), this practice is no longer viable in the Wardaman to English context. To tackle the low-resource challenge, we design WARDEN to have separate transcription and translation models: WARDEN first turns a Wardaman audio input into phonemic transcription, and then the transcription into English translation. Further, we propose two useful techniques to enhance performance. For transcription, we initialize the Wardaman token from Sundanese, a language that shares similar phonemes with Wardaman, to accelerate fine-tuning of the transcription model. For translation, we compile a Wardaman-English dictionary from expert annotations, and provide this domain-specific knowledge to a large language model (LLM) to reason and decide the final output. We empirically demonstrate that this two-stage design works better than data-hungry unified approaches in extremely low data settings. Using a mere 6 hours of annotated data, WARDEN outperforms larger open-source and proprietary models and establishes a strong baseline. Data and code are available.