Improving LLM Abilities in Idiomatic Translation

📄 arXiv: 2407.03518v4 📥 PDF

作者: Sundesh Donthi, Maximilian Spencer, Om Patel, Joon Doh, Eid Rodan, Kevin Zhu, Sean O'Brien

分类: cs.CL, cs.AI

发布日期: 2024-07-03 (更新: 2025-01-23)

备注: Preprint for LoResLM Workshop at COLING 2025


💡 一句话要点

提出基于知识库增强的LLM翻译方法,提升成语翻译的信达雅。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 成语翻译 机器翻译 大型语言模型 知识库 跨文化交流

📋 核心要点

  1. 现有LLM在成语翻译中存在不足,难以兼顾准确性和语言风格。
  2. 通过扩展知识库,寻找目标语言中语义对应的成语,提升翻译质量。
  3. 实验表明,基于余弦相似度查找的方法在GPT4o翻译中表现最佳,尤其是在英汉和汉英翻译中。

📝 摘要(中文)

大型语言模型(LLM),如NLLB和GPT,在成语翻译方面仍面临挑战。本研究旨在通过改进LLM对成语的处理,同时保留原始语言风格,来提高翻译的准确性。这具有重要的社会影响,因为它保留了文化细微差别,并确保翻译后的文本保留其意图和情感共鸣,从而促进更好的跨文化交流。先前的工作利用IdiomKB等知识库,向LLM提供成语的含义以用于翻译。虽然这种方法比直接翻译产生了更好的结果,但它在跨语言保留成语写作风格方面的能力仍然有限。在这项研究中,我们扩展了知识库,以找到目标语言中的对应成语。我们的研究使用两种方法进行翻译:第一种方法采用SentenceTransformers模型来语义生成原始语言和目标语言成语含义之间的余弦相似度分数,选择最佳成语(余弦相似度方法)。第二种方法使用LLM在目标语言中找到相应的成语以用于翻译(LLM生成成语方法)。作为基线,我们进行了直接翻译,没有提供额外的信息。对英语->中文和中文->英语的人工评估表明,余弦相似度查找方法在所有GPT4o翻译中都优于其他方法。为了进一步构建IdiomKB,我们开发了一个包含乌尔都语成语及其翻译的低资源乌尔都语数据集。尽管数据集存在局限性,但余弦相似度查找方法显示出希望,有可能克服语言障碍,并能够探索中文和乌尔都语的各种文学作品。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在成语翻译中存在的不足,即无法在保证翻译准确性的同时,保留原文的语言风格和文化内涵。现有的直接翻译方法和仅提供成语释义的方法都难以达到理想的效果,前者可能导致字面翻译,丢失成语的真正含义,后者虽然能提高准确性,但无法保留原文的语言风格。

核心思路:论文的核心思路是利用知识库,寻找源语言成语在目标语言中语义对应的成语,然后用找到的对应成语进行翻译。这样既能保证翻译的准确性,又能尽可能地保留原文的语言风格和文化内涵。论文设计了两种寻找对应成语的方法:基于余弦相似度的方法和基于LLM生成的方法。

技术框架:整体框架包括以下几个主要步骤:1) 构建或扩展成语知识库,包含源语言和目标语言的成语及其释义;2) 对于给定的源语言成语,使用SentenceTransformers模型计算其释义与目标语言成语释义之间的余弦相似度,或者使用LLM生成目标语言中语义对应的成语;3) 选择相似度最高的成语或LLM生成的成语作为翻译结果;4) 使用选定的成语进行翻译。

关键创新:论文的关键创新在于将成语翻译问题转化为在知识库中寻找语义对应成语的问题,并提出了两种寻找对应成语的方法。与直接翻译或仅提供成语释义的方法相比,该方法能够更好地保留原文的语言风格和文化内涵。

关键设计:在基于余弦相似度的方法中,SentenceTransformers模型的选择和余弦相似度阈值的设置是关键。在基于LLM生成的方法中,prompt的设计和LLM的选择是关键。此外,如何构建和维护高质量的成语知识库也是一个重要的技术细节。对于低资源语言,如何利用少量数据进行知识库构建和模型训练也是一个挑战。

📊 实验亮点

实验结果表明,在GPT4o模型上,基于余弦相似度查找的方法在英语到中文和中文到英语的成语翻译中表现最佳,优于直接翻译和LLM生成成语的方法。这表明通过知识库查找语义对应的成语能够有效提升翻译质量。

🎯 应用场景

该研究成果可应用于机器翻译系统,尤其是在文学作品、新闻报道等对语言风格和文化内涵要求较高的领域。通过提升成语翻译的准确性和风格保留能力,可以促进跨文化交流,帮助人们更好地理解不同文化背景下的文本,并为低资源语言的机器翻译提供新的思路。

📄 摘要(原文)

For large language models (LLMs) like NLLB and GPT, translating idioms remains a challenge. Our goal is to enhance translation fidelity by improving LLM processing of idiomatic language while preserving the original linguistic style. This has a significant social impact, as it preserves cultural nuances and ensures translated texts retain their intent and emotional resonance, fostering better cross-cultural communication. Previous work has utilized knowledge bases like IdiomKB by providing the LLM with the meaning of an idiom to use in translation. Although this method yielded better results than a direct translation, it is still limited in its ability to preserve idiomatic writing style across languages. In this research, we expand upon the knowledge base to find corresponding idioms in the target language. Our research performs translations using two methods: The first method employs the SentenceTransformers model to semantically generate cosine similarity scores between the meanings of the original and target language idioms, selecting the best idiom (Cosine Similarity method). The second method uses an LLM to find a corresponding idiom in the target language for use in the translation (LLM-generated idiom method). As a baseline, we performed a direct translation without providing additional information. Human evaluations on the English -> Chinese, and Chinese -> English show the Cosine Similarity Lookup method out-performed others in all GPT4o translations. To further build upon IdiomKB, we developed a low-resource Urdu dataset containing Urdu idioms and their translations. Despite dataset limitations, the Cosine Similarity Lookup method shows promise, potentially overcoming language barriers and enabling the exploration of diverse literary works in Chinese and Urdu.(LoResLM @ COLING Preprint)