Investigating Numerical Translation with Large Language Models

📄 arXiv: 2501.04927v1 📥 PDF

作者: Wei Tang, Jiawei Yu, Yuang Li, Yanqing Zhao, Weidong Zhang, Wei Feng, Min Zhang, Hao Yang

分类: cs.CL

发布日期: 2025-01-09

备注: Accepted by ICASSP 2025


💡 一句话要点

提出评估大语言模型在数字翻译中的可靠性以解决安全问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数字翻译 大语言模型 机器翻译 错误率评估 安全隐患

📋 核心要点

  1. 现有的机器翻译系统在数字翻译方面存在显著不足,尤其是在处理大单位数字时错误率较高。
  2. 本研究通过构建一个中英文数字翻译数据集,系统性地评估了开源LLMs在数字翻译中的表现。
  3. 实验结果显示,许多开源LLMs在数字翻译中存在普遍错误,尤其是大单位翻译的错误率高达20%。

📝 摘要(中文)

数字翻译的不准确性可能导致严重的安全问题,包括财务损失和医疗错误。尽管大语言模型(LLMs)在机器翻译方面取得了显著进展,但其在数字翻译能力上的研究仍然不足。本研究评估了基于LLM的机器翻译系统在处理数字数据时的可靠性。为系统性测试当前开源LLMs的数字翻译能力,我们构建了一个基于真实商业数据的中英文数字翻译数据集,涵盖十种数字翻译类型。实验结果表明,数字翻译错误是普遍存在的问题,大多数开源LLMs在我们的测试场景中表现不佳,尤其是在涉及“百万”、“十亿”和“亿”等大单位时,最新的llama3.1 8b模型的错误率高达20%。最后,我们提出了三种潜在策略以减轻大单位的数字误翻。

🔬 方法详解

问题定义:本研究旨在解决大语言模型在数字翻译中的不准确性,尤其是在处理大单位数字时的高错误率问题。现有方法在这一领域的研究较少,导致安全隐患。

核心思路:论文通过构建一个基于真实商业数据的数字翻译数据集,系统性地评估和分析开源LLMs的数字翻译能力,提出改进策略以降低错误率。

技术框架:研究首先构建了一个包含十种数字翻译类型的数据集,然后对多种开源LLMs进行实验,评估其在不同数字类型下的翻译表现,最后提出三种改进策略。

关键创新:本研究的创新点在于系统性地评估了LLMs在数字翻译中的表现,并针对大单位数字翻译提出了具体的改进策略,这在现有文献中尚属首次。

关键设计:数据集设计基于真实商业数据,涵盖多种数字类型,实验中使用了多种开源LLMs,重点分析了大单位数字翻译的错误率,并提出了相应的改进措施。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果显示,许多开源LLMs在数字翻译中存在普遍错误,尤其是在处理大单位数字时,最新的llama3.1 8b模型的错误率高达20%。通过提出的三种改进策略,有望显著降低这些错误率,提升翻译的可靠性。

🎯 应用场景

该研究的潜在应用领域包括金融、医疗和其他需要精确数字翻译的行业。通过提高数字翻译的准确性,可以有效降低因翻译错误导致的安全隐患,从而提升相关领域的工作效率和安全性。未来,该研究的成果有望推动更可靠的机器翻译系统的开发。

📄 摘要(原文)

The inaccurate translation of numbers can lead to significant security issues, ranging from financial setbacks to medical inaccuracies. While large language models (LLMs) have made significant advancements in machine translation, their capacity for translating numbers has not been thoroughly explored. This study focuses on evaluating the reliability of LLM-based machine translation systems when handling numerical data. In order to systematically test the numerical translation capabilities of currently open source LLMs, we have constructed a numerical translation dataset between Chinese and English based on real business data, encompassing ten types of numerical translation. Experiments on the dataset indicate that errors in numerical translation are a common issue, with most open-source LLMs faltering when faced with our test scenarios. Especially when it comes to numerical types involving large units like million",billion", and "yi", even the latest llama3.1 8b model can have error rates as high as 20%. Finally, we introduce three potential strategies to mitigate the numerical mistranslations for large units.