SLoW: Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models
作者: Hongyuan Lu, Zixuan Li, Zefan Zhang, Wai Lam
分类: cs.CL
发布日期: 2025-07-25
💡 一句话要点
提出SLoW方法,通过选择低频词字典提升大语言模型翻译性能并节省token消耗。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 大语言模型 字典选择 低频词 资源优化
📋 核心要点
- 现有基于字典的翻译方法token消耗高昂,难以在性能和效率间权衡。
- SLoW方法通过选择低频词字典,在保证翻译质量的同时,显著降低token使用量。
- 实验表明,SLoW在多种语言上超越了全字典基线,且无需访问训练数据。
📝 摘要(中文)
目前的大语言模型(LLMs)仅支持数百种语言,而全球有超过7000种语言。基于字典的prompt方法可以增强LLMs的翻译能力,但现有方法通常使用所有可用的字典,这会带来高昂的token消耗。为了在token消耗和翻译性能之间取得平衡,本文提出了一个名为“自动字典选择(ADS)”的新任务,旨在自动选择用于增强翻译的字典。我们提出了一种名为“选择低频词!(SLoW)”的有效方法,该方法选择具有较低词频的字典。SLoW方法的独特优势在于,无需访问训练数据进行词频估计(通常不可用),并且继承了基于字典的方法的优点,即无需在LLMs上进行额外的微调。在FLORES数据集的100种语言上的实验结果表明,SLoW超越了强大的基线方法,并且可以显著节省token使用量,在许多语言上甚至超过了完整字典基线的翻译性能。
🔬 方法详解
问题定义:论文旨在解决大语言模型在进行机器翻译时,如何高效地利用字典资源的问题。现有基于字典的翻译方法通常直接使用所有可用的字典,这导致了巨大的token消耗,尤其是在处理大量文本或多种语言时,成本非常高昂。因此,如何在保证翻译质量的前提下,减少token的使用量,成为了一个重要的挑战。
核心思路:论文的核心思路是,并非所有字典都对翻译有同等重要的作用。选择包含低频词的字典,更有可能提升翻译质量,因为这些低频词往往是模型难以翻译的罕见词汇。通过优先选择包含这些罕见词汇的字典,可以在有限的token预算下,最大化翻译性能的提升。
技术框架:SLoW方法主要包含以下几个步骤:1. 收集目标语言的多个字典资源。2. 对每个字典中的词汇进行词频估计,这里可以使用公开可用的语料库,而无需访问模型的训练数据。3. 根据词频对字典进行排序,选择包含低频词的字典子集。4. 使用选择的字典子集进行prompting,输入到大语言模型中进行翻译。
关键创新:SLoW方法最重要的创新在于其字典选择策略,即基于词频选择字典。与以往直接使用所有字典的方法不同,SLoW能够根据词汇的稀有程度,动态地选择最有效的字典子集。此外,SLoW无需访问模型的训练数据,使其具有更广泛的适用性。
关键设计:SLoW的关键设计在于如何有效地估计词频。论文中提到可以使用公开资源进行词频估计,具体方法未知。此外,如何确定选择多少个字典也是一个关键参数,需要在token消耗和翻译性能之间进行权衡。论文中可能使用了某种启发式方法或实验来确定这个参数,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
SLoW方法在FLORES数据集的100种语言上进行了实验,结果表明,SLoW超越了强大的基线方法,并且可以显著节省token使用量。在许多语言上,SLoW甚至超过了完整字典基线的翻译性能。更重要的是,SLoW无需访问训练数据即可实现这些提升,这使其具有很强的实用性。
🎯 应用场景
SLoW方法可应用于各种需要利用大语言模型进行机器翻译的场景,尤其是在资源受限或需要处理大量语言的情况下。例如,在低资源语言的翻译、移动设备上的离线翻译、以及需要控制token成本的云服务中,SLoW都具有重要的应用价值。该方法可以帮助开发者更高效地利用大语言模型,降低翻译成本,并提升用户体验。
📄 摘要(原文)
There are more than 7,000 languages around the world, and current Large Language Models (LLMs) only support hundreds of languages. Dictionary-based prompting methods can enhance translation on them, but most methods use all the available dictionaries, which could be expensive. Instead, it will be flexible to have a trade-off between token consumption and translation performance. This paper proposes a novel task called \textbf{A}utomatic \textbf{D}ictionary \textbf{S}election (\textbf{ADS}). The goal of the task is to automatically select which dictionary to use to enhance translation. We propose a novel and effective method which we call \textbf{S}elect \textbf{Lo}w-frequency \textbf{W}ords! (\textbf{SLoW}) which selects those dictionaries that have a lower frequency. Our methods have unique advantages. First, there is no need for access to the training data for frequency estimation (which is usually unavailable). Second, it inherits the advantage of dictionary-based methods, where no additional tuning is required on LLMs. Experimental results on 100 languages from FLORES indicate that SLoW surpasses strong baselines, and it can obviously save token usage, with many languages even surpassing the translation performance of the full dictionary baseline.\footnote{A shocking fact is that there is no need to use the actual training data (often unobtainable) for frequency estimation, and an estimation frequency obtained using public resources is still apparently effective in improving translation with ChatGPT and Llama, and DeepSeek.}\footnote{Code and data available upon publication.}