The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights
作者: Wenhao Zhu, Shujian Huang, Fei Yuan, Cheng Chen, Jiajun Chen, Alexandra Birch
分类: cs.CL
发布日期: 2024-05-02 (更新: 2024-11-06)
💡 一句话要点
利用问题翻译训练增强多语言推理能力,扩展应用范围并加深理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言推理 问题翻译训练 语言模型对齐 思维链 程序思维 代理调优 LLaMA2 跨语言理解
📋 核心要点
- 现有方法依赖昂贵的翻译数据来提升LLM的多语言能力,但翻译质量难以保证。
- 论文提出问题对齐框架,利用LLM的英语能力,通过问题翻译训练来提升多语言推理性能。
- 实验表明,该框架能有效提升LLaMA2等模型在多语言推理任务上的性能,平均准确率提升显著。
📝 摘要(中文)
本文旨在弥合大型语言模型在英语和非英语性能之间的显著差距。虽然一些先前研究尝试使用翻译后的训练数据来缓解这一差距,但最近提出的问题对齐框架利用模型的英语专业知识,以最小化昂贵且容易出错的翻译的使用,从而提高多语言性能。本文探讨了这种方法在多大程度上可以广泛应用,通过考察其在有无思维链以及程序思维的推理中的效果。我们还探索了以高效的方式将此框架应用于极大型语言模型,例如通过代理调优。在多语言推理基准测试mGSM、mSVAMP、xCSQA和xNLI上的实验结果表明,我们可以扩展问题对齐框架,以提高跨不同推理场景、模型系列和规模的多语言性能。例如,当应用于LLaMA2模型时,即使是70B模型,它也能在mGSM上带来平均12.2%的准确率提升。为了理解其成功的机制,我们分析了表征空间、生成的响应和数据规模,并揭示了问题翻译训练如何加强LLM中的语言对齐并塑造其工作模式。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)在英语任务上表现出色,但在非英语任务上的性能明显下降。直接使用翻译数据进行训练成本高昂,且翻译质量难以保证,这限制了LLM在多语言环境下的应用。因此,如何高效地提升LLM在非英语环境下的推理能力是一个关键问题。
核心思路:论文的核心思路是利用LLM本身在英语方面的强大能力,通过问题翻译训练(Question Translation Training)来增强其多语言推理能力。具体来说,就是将非英语问题翻译成英语,让模型利用其英语知识进行推理,然后将推理结果转换回原始语言。这种方法避免了直接翻译大量训练数据,降低了成本,并减少了翻译错误带来的影响。
技术框架:该框架主要包含以下几个步骤:1) 将非英语问题翻译成英语;2) 使用LLM对翻译后的英语问题进行推理(可以使用思维链或程序思维);3) 将推理结果翻译回原始语言。在训练阶段,使用问题翻译后的数据对模型进行微调,目标是使模型能够更好地理解和处理非英语问题。此外,论文还探索了使用代理调优(Proxy-tuning)来高效地将该框架应用于极大型语言模型。
关键创新:该方法的核心创新在于利用了LLM自身已有的英语知识,避免了对大量翻译数据的依赖。通过问题翻译训练,可以有效地增强LLM在不同语言之间的对齐能力,使其能够更好地理解和处理非英语问题。此外,使用代理调优可以降低在大模型上进行微调的计算成本。
关键设计:论文的关键设计包括:1) 使用高质量的翻译模型进行问题翻译;2) 在训练过程中,使用适当的损失函数来优化模型的语言对齐能力;3) 探索不同的推理策略(如思维链、程序思维)对性能的影响;4) 使用代理调优来降低计算成本。具体的参数设置和网络结构取决于所使用的LLM和翻译模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在mGSM、mSVAMP、xCSQA和xNLI等多个多语言推理基准测试上取得了显著的性能提升。例如,在LLaMA2模型上应用该方法后,mGSM的平均准确率提升了12.2%,即使是70B参数的模型也获得了提升。此外,论文还通过表征空间分析、生成响应分析和数据规模分析,深入理解了问题翻译训练的有效性机制。
🎯 应用场景
该研究成果可广泛应用于多语言智能客服、跨语言信息检索、多语言机器翻译等领域。通过提升LLM在非英语环境下的推理能力,可以更好地服务于全球用户,促进不同语言文化之间的交流与合作。未来,该方法有望应用于更多低资源语言,进一步缩小语言模型在不同语言之间的性能差距。
📄 摘要(原文)
Bridging the significant gap between large language model's English and non-English performance presents a great challenge. While some previous studies attempt to mitigate this gap with translated training data, the recently proposed question alignment framework leverages the model's English expertise to improve multilingual performance with minimum usage of expensive, error-prone translation. In this paper, we explore how broadly this method can be applied by examining its effects in reasoning with and without chain-of-thought, as well as with program-of-thought. We also explore applying this framework to extremely large language models in an efficient manner, such as through proxy-tuning. Experiment results on multilingual reasoning benchmarks mGSM, mSVAMP, xCSQA and xNLI demonstrate that we can extend question alignment framework to boost multilingual performance across diverse reasoning scenarios, model families, and sizes. For instance, when applied to the LLaMA2 models, it brings an average accuracy improvements of 12.2% on mGSM even with the 70B model. To understand the mechanism of its success, we analyze representation space, generated response and data scales, and reveal how question translation training strengthens language alignment within LLMs and shapes their working patterns.