SAGE: Sustainable Agent-Guided Expert-tuning for Culturally Attuned Translation in Low-Resource Southeast Asia

📄 arXiv: 2603.19931v1 📥 PDF

作者: Zhixiang Lu, Chong Zhang, Yulong Li, Angelos Stefanidis, Anh Nguyen, Imran Razzak, Jionglong Su, Zhengyong Jiang

分类: cs.CL

发布日期: 2026-03-20

备注: Accepted by WWW 2026


💡 一句话要点

SAGE:面向低资源东南亚语言,可持续的Agent引导专家调优文化翻译

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低资源翻译 可持续AI 强化学习 专家调优 文化适应

📋 核心要点

  1. 现有LLM在低资源语言翻译中面临高质量文化相关数据稀缺和高昂训练能源成本的双重挑战。
  2. SAGE框架利用强化学习Agent自主策划紧凑的训练集,并使用专家构建的对话进行语义奖励引导。
  3. 实验表明,SAGE在BLEU-4和COMET-22指标上超越基线,同时显著降低数据使用量和能源消耗。

📝 摘要(中文)

包容性万维网的愿景受到严重语言鸿沟的阻碍,尤其是在东南亚低资源地区。大型语言模型(LLM)为翻译提供了一种潜在的解决方案,但它们在数据匮乏环境中的部署面临双重挑战:高质量、文化相关数据的稀缺,以及在海量、嘈杂的网络语料库上训练所带来的高昂能源成本。为了解决数字包容性和环境可持续性之间的矛盾,我们引入了可持续的Agent引导专家调优(SAGE)。该框架开创了一种能源感知范式,优先考虑“正确的数据”而不是“大数据”。SAGE没有在未经过滤的数据集上进行碳密集型训练,而是采用强化学习(RL)Agent,通过群体相对策略优化(GRPO)进行优化,以自主策划一个紧凑的训练集。该Agent利用从一小组专家构建的社区对话中获得的语义奖励信号来过滤掉噪声和文化错位。然后,我们使用低秩适应(LoRA)在此策划的数据上高效地微调开源LLM。我们将SAGE应用于英语和东南亚七种低资源语言(LRL)之间的翻译任务。我们的方法在BLEU-4和COMET-22指标上建立了新的最先进性能,有效地捕捉了当地的语言细微差别。至关重要的是,SAGE超越了在完整数据集上训练的基线,同时减少了97.1%的数据使用量和95.2%的训练能源消耗。通过以最小的环境足迹提供高性能模型,SAGE为弥合全球南方数字鸿沟提供了一条可扩展且负责任的途径。

🔬 方法详解

问题定义:论文旨在解决低资源东南亚语言翻译中,现有大型语言模型训练依赖海量数据导致的高能源消耗和对文化细微差别理解不足的问题。现有方法通常直接在未经筛选的大规模语料库上训练,忽略了数据的质量和文化相关性,导致模型性能受限且碳排放较高。

核心思路:论文的核心思路是采用“可持续”的训练方式,即优先选择“正确的数据”而非“大数据”。通过强化学习Agent自动筛选和提炼高质量、文化相关的训练数据,从而在保证翻译质量的同时,大幅降低训练所需的计算资源和能源消耗。

技术框架:SAGE框架主要包含以下几个模块:1) 专家知识库:由语言专家构建的小规模高质量社区对话数据集,用于提供语义奖励信号。2) 强化学习Agent:使用群体相对策略优化(GRPO)训练的Agent,负责从大规模语料库中选择最具信息量和文化相关性的数据样本。3) 低秩适应(LoRA)微调:使用Agent筛选后的数据,对预训练的开源LLM进行高效微调。整体流程是Agent根据专家知识库提供的奖励信号,迭代地选择数据样本,然后使用这些样本微调LLM,最终得到高性能且低能耗的翻译模型。

关键创新:SAGE的关键创新在于其能源感知的训练范式和Agent引导的数据选择策略。与传统的“大数据”训练方法不同,SAGE通过强化学习Agent智能地选择训练数据,从而显著减少了数据使用量和能源消耗。此外,利用专家知识库提供的语义奖励信号,确保了所选数据的文化相关性,提高了翻译质量。

关键设计:在强化学习Agent的设计中,采用了群体相对策略优化(GRPO)算法,以提高训练的稳定性和效率。奖励函数的设计至关重要,它基于专家知识库中的对话,用于评估候选数据样本的语义相似度和文化相关性。此外,使用低秩适应(LoRA)技术进行模型微调,可以在保持模型性能的同时,显著减少训练参数量和计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAGE在英语与七种东南亚低资源语言的翻译任务中,在BLEU-4和COMET-22指标上取得了新的state-of-the-art性能。与在完整数据集上训练的基线模型相比,SAGE将数据使用量减少了97.1%,训练能源消耗降低了95.2%,实现了高性能和低能耗的平衡。

🎯 应用场景

SAGE框架可应用于各种低资源语言的机器翻译任务,尤其适用于对能源消耗和文化敏感性有较高要求的场景。该研究有助于弥合全球数字鸿沟,促进不同文化之间的交流与理解,并为可持续人工智能发展提供了一种新的思路。

📄 摘要(原文)

The vision of an inclusive World Wide Web is impeded by a severe linguistic divide, particularly for communities in low-resource regions of Southeast Asia. While large language models (LLMs) offer a potential solution for translation, their deployment in data-poor contexts faces a dual challenge: the scarcity of high-quality, culturally relevant data and the prohibitive energy costs of training on massive, noisy web corpora. To resolve the tension between digital inclusion and environmental sustainability, we introduce Sustainable Agent-Guided Expert-tuning (SAGE). This framework pioneers an energy-aware paradigm that prioritizes the "right data" over "big data". Instead of carbon-intensive training on unfiltered datasets, SAGE employs a reinforcement learning (RL) agent, optimized via Group Relative Policy Optimization (GRPO), to autonomously curate a compact training set. The agent utilizes a semantic reward signal derived from a small, expert-constructed set of community dialogues to filter out noise and cultural misalignment. We then efficiently fine-tune open-source LLMs on this curated data using Low-Rank Adaptation (LoRA). We applied SAGE to translation tasks between English and seven low-resource languages (LRLs) in Southeast Asia. Our approach establishes new state-of-the-art performance on BLEU-4 and COMET-22 metrics, effectively capturing local linguistic nuances. Crucially, SAGE surpasses baselines trained on full datasets while reducing data usage by 97.1% and training energy consumption by 95.2%. By delivering high-performance models with a minimal environmental footprint, SAGE offers a scalable and responsible pathway to bridge the digital divide in the Global South.