Redefining Machine Translation on Social Network Services with Large Language Models
作者: Hongcheng Guo, Fei Zhao, Shaosheng Cao, Xinze Lyu, Ziyan Liu, Yue Wang, Boyang Wang, Zhoujun Li, Chonggang Lu, Zhe Xu, Yao Hu
分类: cs.CL
发布日期: 2025-04-10
💡 一句话要点
RedTrans:利用大型语言模型重新定义社交网络服务上的机器翻译
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器翻译 大型语言模型 社交网络服务 领域适配 回译采样
📋 核心要点
- 传统机器翻译模型难以处理社交网络服务中文化相关的复杂内容,如俚语和表情包。
- RedTrans通过双LLM回译采样、重写偏好优化等方法,构建了针对社交网络翻译的专用LLM。
- 实验结果表明,RedTrans在社交网络翻译任务上优于现有LLM,并已成功部署到实际生产环境。
📝 摘要(中文)
社交互动全球化提升了社交网络服务(SNS)上机器翻译(MT)的需求,但传统模型难以处理包含文化细微差别的文本,如表情包、俚语和流行文化引用。虽然大型语言模型(LLM)在通用翻译方面取得了进展,但由于缺乏专门的训练数据和评估基准,它们在SNS特定内容上的性能仍然有限。本文介绍了RedTrans,一个为SNS翻译定制的72B LLM,它通过三个创新点训练而成:(1)使用双LLM回译采样的监督微调,一种使用基于LLM的回译的无监督采样方法,用于选择多样化的数据进行大规模微调;(2)重写偏好优化(RePO),一种通过专家标注识别和纠正错误偏好对的算法,构建可靠的偏好语料库;(3)RedTrans-Bench,第一个用于SNS翻译的基准,评估幽默本地化、表情符号语义和表情包改编等现象。实验表明RedTrans优于最先进的LLM。此外,RedTrans已经部署在真实的生产环境中,表明领域特定的适配有效地弥合了通用翻译系统和文化基础翻译系统之间的差距。
🔬 方法详解
问题定义:论文旨在解决社交网络服务(SNS)上机器翻译的难题。现有通用机器翻译模型在处理SNS中常见的文化梗、俚语、表情符号等内容时表现不佳,缺乏针对性的训练数据和评估标准。这导致翻译结果不够地道,难以准确传达原文的含义和情感。
核心思路:论文的核心思路是构建一个专门针对SNS翻译的大型语言模型RedTrans。通过领域特定的数据增强和优化算法,使RedTrans能够更好地理解和生成符合SNS语境的翻译结果。这种领域适配的方法旨在弥合通用翻译系统和文化基础翻译系统之间的差距。
技术框架:RedTrans的训练框架主要包含三个阶段:1) 双LLM回译采样:利用两个LLM进行回译,生成多样化的训练数据;2) 重写偏好优化(RePO):通过人工标注纠正LLM的偏好错误,构建高质量的偏好数据集;3) RedTrans-Bench评估:使用专门构建的SNS翻译基准测试RedTrans的性能。
关键创新:论文的关键创新在于数据增强和优化算法的设计。双LLM回译采样能够生成更具多样性的训练数据,有效缓解了领域数据稀缺的问题。RePO算法通过人工干预纠正LLM的偏好错误,提高了模型的翻译质量和一致性。RedTrans-Bench基准的提出,为SNS翻译的研究提供了统一的评估标准。
关键设计:RedTrans是一个72B参数的LLM。双LLM回译采样使用两个不同的LLM进行正向和反向翻译,并根据一定的策略选择高质量的翻译结果。RePO算法通过专家标注,构建包含正确和错误偏好对的数据集,并使用对比学习的方法优化模型。RedTrans-Bench基准包含多种SNS翻译场景,并针对幽默本地化、表情符号语义和表情包改编等现象进行评估。
🖼️ 关键图片
📊 实验亮点
RedTrans在RedTrans-Bench基准测试中显著优于其他SOTA的LLM。具体来说,在幽默本地化、表情符号语义和表情包改编等多个指标上,RedTrans都取得了明显的提升。此外,RedTrans已成功部署到实际生产环境中,验证了其在真实场景中的有效性和实用性。
🎯 应用场景
RedTrans可应用于各种社交网络平台,提升跨语言交流的质量和效率。它能够帮助用户更好地理解和参与全球社交互动,促进不同文化之间的交流和理解。此外,该技术还可以应用于智能客服、内容审核等领域,提高社交网络服务的智能化水平。
📄 摘要(原文)
The globalization of social interactions has heightened the need for machine translation (MT) on Social Network Services (SNS), yet traditional models struggle with culturally nuanced content like memes, slang, and pop culture references. While large language models (LLMs) have advanced general-purpose translation, their performance on SNS-specific content remains limited due to insufficient specialized training data and evaluation benchmarks. This paper introduces RedTrans, a 72B LLM tailored for SNS translation, trained on a novel dataset developed through three innovations: (1) Supervised Finetuning with Dual-LLM Back-Translation Sampling, an unsupervised sampling method using LLM-based back-translation to select diverse data for large-scale finetuning; (2) Rewritten Preference Optimization (RePO), an algorithm that identifies and corrects erroneous preference pairs through expert annotation, building reliable preference corpora; and (3) RedTrans-Bench, the first benchmark for SNS translation, evaluating phenomena like humor localization, emoji semantics, and meme adaptation. Experiments show RedTrans outperforms state-of-the-art LLMs. Besides, RedTrans has already been deployed in a real-world production environment, demonstrating that domain-specific adaptation, effectively bridges the gap between generic and culturally grounded translation systems.