TransLaw: Benchmarking Large Language Models in Multi-Agent Simulation of the Collaborative Translation

作者: Xi Xuan, King-kui Sin, Yufei Zhou, Chunyu Kit

分类: cs.CL, cs.HC, cs.MA

发布日期: 2025-07-01

备注: arXiv admin note: text overlap with arXiv:2501.09444; text overlap with arXiv:2409.20288 by other authors

💡 一句话要点

TransLaw：多智能体协同翻译框架，用于香港法律判决的LLM基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 机器翻译 法律翻译 大型语言模型 协同翻译

📋 核心要点

现有方法难以应对香港法律判决翻译中法律术语复杂、文化内涵丰富和语言结构严格等挑战。
TransLaw框架通过构建翻译者、注释者和校对者三个智能体，实现协同翻译，提升翻译质量。
实验表明，TransLaw在法律语义准确性等方面超越GPT-4o，并大幅降低了翻译成本。

📝 摘要（中文）

大型语言模型（LLMs）驱动的多智能体系统在包括机器翻译在内的广泛下游应用中展现了卓越的能力。然而，由于复杂的法律术语、文化内涵以及严格的语言结构等挑战，LLMs在翻译香港法律判决方面的潜力仍不确定。本文提出了TransLaw，一个新颖的多智能体框架，用于真实的香港案例法翻译。它采用三个专门的智能体，即翻译者（Translator）、注释者（Annotator）和校对者（Proofreader），协同生成翻译，以确保法律含义的高度准确性、风格的适当性以及结构的充分连贯性和衔接性。该框架支持可定制的LLM配置，与专业人工翻译服务相比，可大幅降低成本。我们使用13个开源和商业LLM作为智能体评估了其性能，并获得了有趣的发现，包括它在法律语义准确性、结构连贯性和风格保真度方面超越了GPT-4o，但在复杂术语的语境化和风格自然性方面落后于人类专家。我们的平台网站可在CityUHK访问，用于评估的双语判决语料库可在Hugging Face上获得。

🔬 方法详解

问题定义：论文旨在解决香港法律判决翻译中，由于法律术语复杂、文化内涵丰富以及语言结构严格等因素，导致现有大型语言模型（LLMs）难以保证翻译质量的问题。现有方法的痛点在于无法在准确性、风格和结构上同时达到专业法律翻译的要求。

核心思路：论文的核心思路是采用多智能体协同翻译框架，将翻译任务分解为翻译、注释和校对三个子任务，并分别由不同的智能体负责。通过智能体之间的协作，可以更好地处理法律文本的复杂性，提高翻译质量。

技术框架：TransLaw框架包含三个主要模块：翻译者（Translator）、注释者（Annotator）和校对者（Proofreader）。翻译者负责生成初步翻译；注释者负责对法律术语进行注释和解释；校对者负责检查和修改翻译，确保准确性、风格和结构。整个流程是一个迭代的过程，智能体之间可以相互交流和反馈，不断改进翻译质量。

关键创新：该框架的关键创新在于将多智能体系统应用于法律翻译领域，通过智能体之间的协作，模拟了专业法律翻译团队的工作流程。此外，该框架还支持可定制的LLM配置，可以根据不同的需求选择不同的LLM作为智能体。

关键设计：框架的关键设计包括：1) 针对不同智能体设计了不同的prompt，以引导LLM完成特定的任务；2) 定义了智能体之间的交流协议，确保信息传递的准确性和效率；3) 采用了迭代式的翻译流程，允许智能体之间进行反馈和改进；4) 使用了双语判决语料库进行评估，并设计了相应的评估指标，以衡量翻译质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TransLaw框架在法律语义准确性、结构连贯性和风格保真度方面超越了GPT-4o。同时，该框架与专业人工翻译服务相比，可大幅降低翻译成本。例如，在某些指标上，TransLaw甚至优于GPT-4o，显示了多智能体协同翻译的潜力。

🎯 应用场景

TransLaw框架可应用于法律文件的机器翻译、法律知识库的构建以及法律咨询服务等领域。该研究有助于降低法律翻译的成本，提高翻译效率，并促进法律信息的跨语言传播。未来，该框架可以扩展到其他专业领域的翻译，例如医学、金融等。

📄 摘要（原文）

Multi-agent systems empowered by large language models (LLMs) have demonstrated remarkable capabilities in a wide range of downstream applications, including machine translation. However, the potential of LLMs in translating Hong Kong legal judgments remains uncertain due to challenges such as intricate legal terminology, culturally embedded nuances, and strict linguistic structures. In this work, we introduce TransLaw, a novel multi-agent framework implemented for real-world Hong Kong case law translation. It employs three specialized agents, namely, Translator, Annotator, and Proofreader, to collaboratively produce translations for high accuracy in legal meaning, appropriateness in style, and adequate coherence and cohesion in structure. This framework supports customizable LLM configurations and achieves tremendous cost reduction compared to professional human translation services. We evaluated its performance using 13 open-source and commercial LLMs as agents and obtained interesting findings, including that it surpasses GPT-4o in legal semantic accuracy, structural coherence, and stylistic fidelity, yet trails human experts in contextualizing complex terminology and stylistic naturalness. Our platform website is available at CityUHK, and our bilingual judgment corpus used for the evaluation is available at Hugging Face.

TransLaw: Benchmarking Large Language Models in Multi-Agent Simulation of the Collaborative Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理