Towards AI Evaluation in Domain-Specific RAG Systems: The AgriHubi Case Study

📄 arXiv: 2602.02208v1 📥 PDF

作者: Md. Toufique Hasan, Ayman Asad Khan, Mika Saari, Vaishnavi Bankhele, Pekka Abrahamsson

分类: cs.CL, cs.AI, cs.IR, cs.SE

发布日期: 2026-02-02

备注: 6 pages, 2 figures, submitted to MIPRO 2026


💡 一句话要点

AgriHubi:面向芬兰语农业决策支持的领域RAG系统及评估方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG 低资源语言 领域自适应 农业决策支持

📋 核心要点

  1. 现有通用大语言模型在农业等专业领域知识薄弱,尤其在低资源语言场景下,难以有效利用领域文档。
  2. AgriHubi通过RAG方法,将芬兰语农业文档与开源PORO模型结合,并利用用户反馈进行迭代优化。
  3. 用户研究表明,AgriHubi在答案完整性、语言准确性和用户感知可靠性方面均有显著提升,但需权衡响应质量和延迟。

📝 摘要(中文)

大型语言模型在知识密集型领域展现出潜力,但其在农业领域的应用受到弱 grounding、以英语为中心的训练数据以及有限的实际评估的制约。对于低资源语言,这些问题更加突出,尽管存在高质量的领域文档,但通用模型难以访问。本文提出了 AgriHubi,一个面向芬兰语农业决策支持的领域自适应检索增强生成(RAG)系统。AgriHubi集成了芬兰语农业文档与开源PORO系列模型,并将显式源 grounding 与用户反馈相结合,以支持迭代改进。经过八次迭代开发并通过两项用户研究进行评估,该系统在答案完整性、语言准确性和感知可靠性方面显示出明显的提升。结果还揭示了部署较大模型时响应质量和延迟之间的实际权衡。这项研究为在低资源语言环境中设计和评估领域特定的 RAG 系统提供了经验指导。

🔬 方法详解

问题定义:论文旨在解决低资源语言(芬兰语)农业领域中,通用大语言模型知识匮乏、难以有效利用领域文档的问题。现有方法难以提供准确、完整、可靠的农业决策支持,痛点在于缺乏针对特定领域和语言的优化。

核心思路:论文的核心思路是构建一个领域自适应的检索增强生成(RAG)系统AgriHubi。通过检索相关的芬兰语农业文档,并将其作为上下文输入到语言模型中,从而提高模型在特定领域的知识水平和生成能力。同时,利用用户反馈进行迭代优化,不断提升系统的性能。

技术框架:AgriHubi的整体架构包含以下几个主要模块:1) 芬兰语农业文档库;2) 文档检索模块,用于根据用户查询检索相关文档;3) 基于PORO模型的生成模块,利用检索到的文档生成答案;4) 用户反馈模块,收集用户对答案的评价,用于迭代优化系统。

关键创新:AgriHubi的关键创新在于针对低资源语言的领域自适应RAG系统设计。它结合了显式源 grounding 和用户反馈,实现了系统的迭代改进。此外,该研究还关注了响应质量和延迟之间的权衡,为实际部署提供了指导。

关键设计:AgriHubi的关键设计包括:1) 使用开源PORO系列模型作为生成模块的基础;2) 设计用户反馈机制,收集用户对答案完整性、语言准确性和可靠性的评价;3) 通过迭代开发和用户研究,不断优化检索和生成策略。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

AgriHubi经过八次迭代开发和两项用户研究,在答案完整性、语言准确性和感知可靠性方面均有显著提升。用户研究表明,AgriHubi能够提供更准确、更可靠的农业决策支持,但同时也揭示了部署较大模型时响应质量和延迟之间的实际权衡。

🎯 应用场景

AgriHubi的研究成果可应用于其他低资源语言的专业领域,例如医疗、法律等,为相关领域的决策支持提供更准确、可靠的信息。该研究也为领域自适应RAG系统的设计和评估提供了参考,有助于推动大语言模型在特定领域的应用。

📄 摘要(原文)

Large language models show promise for knowledge-intensive domains, yet their use in agriculture is constrained by weak grounding, English-centric training data, and limited real-world evaluation. These issues are amplified for low-resource languages, where high-quality domain documentation exists but remains difficult to access through general-purpose models. This paper presents AgriHubi, a domain-adapted retrieval-augmented generation (RAG) system for Finnish-language agricultural decision support. AgriHubi integrates Finnish agricultural documents with open PORO family models and combines explicit source grounding with user feedback to support iterative refinement. Developed over eight iterations and evaluated through two user studies, the system shows clear gains in answer completeness, linguistic accuracy, and perceived reliability. The results also reveal practical trade-offs between response quality and latency when deploying larger models. This study provides empirical guidance for designing and evaluating domain-specific RAG systems in low-resource language settings.