Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages: A Case Study in Bengali Agricultural Advisory
作者: Md. Asif Hossain, Nabil Subhan, Mantasha Rahman Mahi, Jannatul Ferdous Nabila
分类: cs.CL, cs.AI
发布日期: 2026-01-05
备注: 5 pages, 3 figures, 1 table
💡 一句话要点
提出一种低成本跨语言RAG框架,解决孟加拉语农业咨询难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言检索 检索增强生成 低资源语言 农业咨询 机器翻译
📋 核心要点
- 现有农业知识库主要为英文,低资源语言(如孟加拉语)用户难以直接访问,阻碍了农业技术推广。
- 提出一种跨语言RAG框架,将孟加拉语查询翻译为英文,利用英文知识库检索,再翻译回孟加拉语。
- 实验表明,该系统能生成基于事实的回复,有效拒绝领域外查询,且延迟较低,可在消费级硬件上运行。
📝 摘要(中文)
由于语言障碍,许多发展中地区获取可靠农业咨询的渠道仍然有限:权威农业手册主要以英语编写,而农民主要使用孟加拉语等低资源本地语言进行交流。虽然大型语言模型(LLM)的最新进展实现了自然语言交互,但直接生成低资源语言的内容通常表现出较差的流畅性和事实不一致性,而基于云的解决方案成本仍然过高。本文提出了一种经济高效的跨语言检索增强生成(RAG)框架,用于孟加拉语农业咨询,该框架强调事实依据和实际可部署性。所提出的系统采用了一种以翻译为中心的架构,其中孟加拉语用户查询被翻译成英语,通过领域特定的关键词注入进行丰富,以使口语化的农民术语与科学命名法对齐,并通过对精选的英语农业手册语料库(FAO,IRRI)进行密集向量检索来回答。生成的英语回复随后被翻译回孟加拉语,以确保可访问性。该系统完全使用开源模型实现,并在消费级硬件上运行,无需依赖付费API。实验评估表明,该系统能够生成可靠的、基于来源的回复,能够有效拒绝领域外查询,并且平均端到端延迟低于20秒。结果表明,跨语言检索与受控翻译相结合,为低资源语言环境中的农业知识获取提供了一种实用且可扩展的解决方案。
🔬 方法详解
问题定义:论文旨在解决低资源语言(如孟加拉语)的农民难以获取英文农业知识库信息的问题。现有方法要么依赖昂贵的云服务,要么在低资源语言上直接生成质量差的内容,无法有效解决信息获取的难题。
核心思路:核心思路是利用机器翻译技术,将低资源语言的查询翻译成高资源语言(英语),然后在高资源语言的知识库中进行检索,最后将检索到的信息翻译回低资源语言。这种方法可以有效利用现有的高质量英文农业知识库,避免直接在低资源语言上进行生成,从而提高生成内容的质量和准确性。
技术框架:该框架包含以下几个主要模块:1) 孟加拉语用户查询输入;2) 将孟加拉语查询翻译成英语;3) 领域特定关键词注入,将农民口语化的术语与科学命名法对齐;4) 在英文农业手册语料库(FAO, IRRI)上进行密集向量检索;5) 生成英文回复;6) 将英文回复翻译回孟加拉语。整个流程无需依赖付费API,可在消费级硬件上运行。
关键创新:该论文的关键创新在于提出了一种经济高效的跨语言RAG框架,该框架结合了机器翻译、领域关键词注入和密集向量检索等技术,实现了在低资源语言环境下对农业知识的有效访问。该方法避免了直接在低资源语言上进行生成,从而提高了生成内容的质量和准确性,同时降低了成本。
关键设计:该系统使用开源的机器翻译模型进行语言翻译,并采用领域特定的关键词注入方法来提高检索的准确性。密集向量检索使用预训练的嵌入模型,并对农业手册语料库进行索引。最终生成的回复经过过滤和排序,以确保质量和相关性。具体的参数设置和模型选择未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该系统能够生成可靠的、基于来源的回复,能够有效拒绝领域外查询,并且平均端到端延迟低于20秒。这些结果表明,该系统在实际应用中具有较高的可用性和实用性。具体的性能指标和对比基线未在摘要中详细说明,属于未知信息。
🎯 应用场景
该研究成果可应用于其他低资源语言的知识获取场景,例如医疗咨询、法律援助等。通过构建跨语言的RAG系统,可以有效弥合语言障碍,使更多人能够访问高质量的信息资源,促进知识的普及和应用。未来,该技术有望在发展中国家的农业推广和农村信息化建设中发挥重要作用。
📄 摘要(原文)
Access to reliable agricultural advisory remains limited in many developing regions due to a persistent language barrier: authoritative agricultural manuals are predominantly written in English, while farmers primarily communicate in low-resource local languages such as Bengali. Although recent advances in Large Language Models (LLMs) enable natural language interaction, direct generation in low-resource languages often exhibits poor fluency and factual inconsistency, while cloud-based solutions remain cost-prohibitive. This paper presents a cost-efficient, cross-lingual Retrieval-Augmented Generation (RAG) framework for Bengali agricultural advisory that emphasizes factual grounding and practical deployability. The proposed system adopts a translation-centric architecture in which Bengali user queries are translated into English, enriched through domain-specific keyword injection to align colloquial farmer terminology with scientific nomenclature, and answered via dense vector retrieval over a curated corpus of English agricultural manuals (FAO, IRRI). The generated English response is subsequently translated back into Bengali to ensure accessibility. The system is implemented entirely using open-source models and operates on consumer-grade hardware without reliance on paid APIs. Experimental evaluation demonstrates reliable source-grounded responses, robust rejection of out-of-domain queries, and an average end-to-end latency below 20 seconds. The results indicate that cross-lingual retrieval combined with controlled translation offers a practical and scalable solution for agricultural knowledge access in low-resource language settings