DRAGON: Dynamic RAG Benchmark On News
作者: Fedor Chernogorskii, Sergei Averkiev, Liliya Kudraleeva, Zaven Martirosian, Maria Tikhonova, Valentin Malykh, Alena Fenogenova
分类: cs.CL, cs.AI
发布日期: 2025-07-08 (更新: 2025-07-15)
💡 一句话要点
DRAGON:提出首个俄语动态RAG基准,用于评估新闻领域检索增强生成系统。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 RAG 俄语 动态基准 新闻领域 知识图谱 自动问答
📋 核心要点
- 现有RAG基准主要集中于英语,缺乏针对俄语等其他语言的动态评估资源,无法反映真实世界新闻的动态变化。
- DRAGON通过构建一个定期更新的俄语新闻语料库,并结合知识图谱自动生成问题,实现了对RAG系统的动态评估。
- 该研究发布了完整的评估框架和基准数据,并启动了公共排行榜,旨在促进俄语RAG技术的发展和社区参与。
📝 摘要(中文)
检索增强生成(RAG)是一种广泛采用的方法,通过在推理时整合外部知识来提高大型语言模型(LLM)的事实性。虽然现有的RAG基准主要针对英语,但包括俄语在内的其他语言的评估资源仍然稀缺且静态,无法捕捉真实部署的动态特性。本文提出了DRAGON(Dynamic RAG Benchmark On News),这是第一个动态基准,用于评估俄语RAG系统在不断变化的新闻语料库上的性能。DRAGON构建于定期更新的俄语新闻和公共文档语料库之上,并支持对检索器和生成器组件的全面评估。问题生成通过从语料库构建的知识图自动执行,并支持提取与不同子图模式对齐的四种核心问题类型。我们发布了一个完整的评估框架,包括自动问题生成管道、评估脚本(可能可重用于其他语言和多语言设置)以及基准数据。我们还启动了一个公共排行榜,以鼓励社区参与和比较。
🔬 方法详解
问题定义:现有RAG基准测试集通常是静态的,无法反映真实世界中信息不断更新的特性,尤其是在新闻领域。针对俄语的RAG评估资源匮乏,阻碍了俄语RAG系统的发展和性能评估。现有方法难以有效评估RAG系统在动态变化的新闻语料库上的表现。
核心思路:DRAGON的核心思路是构建一个动态更新的俄语新闻语料库,并利用知识图谱自动生成问题,从而创建一个能够反映真实世界新闻动态变化的RAG评估基准。通过定期更新语料库和自动生成问题,DRAGON能够持续评估RAG系统在处理新信息时的性能。
技术框架:DRAGON的整体框架包括以下几个主要模块:1) 定期更新的俄语新闻和公共文档语料库;2) 从语料库构建的知识图谱;3) 基于知识图谱的自动问题生成模块,该模块能够生成四种核心问题类型;4) 评估脚本,用于评估检索器和生成器的性能;5) 公共排行榜,用于展示和比较不同RAG系统的性能。
关键创新:DRAGON的关键创新在于其动态性,它能够模拟真实世界新闻的不断变化。此外,DRAGON还采用了基于知识图谱的自动问题生成方法,能够生成多样化的问题,并覆盖不同的知识点。这是首个针对俄语新闻领域的动态RAG基准。
关键设计:DRAGON的关键设计包括:1) 语料库的定期更新机制,确保基准测试能够反映最新的新闻信息;2) 知识图谱的构建方法,确保能够准确地表示新闻语料库中的知识;3) 自动问题生成模块的设计,确保能够生成高质量、多样化的问题;4) 评估指标的选择,确保能够全面评估RAG系统的性能。
🖼️ 关键图片
📊 实验亮点
DRAGON是首个针对俄语新闻领域的动态RAG基准,它提供了一个全面的评估框架,包括自动问题生成管道、评估脚本和基准数据。该研究还启动了一个公共排行榜,鼓励社区参与和比较。具体实验结果未知,但该基准的发布将促进俄语RAG技术的发展。
🎯 应用场景
DRAGON可应用于评估和改进俄语RAG系统在新闻领域的性能,例如提升新闻推荐、信息检索和问答系统的准确性和时效性。该基准的动态特性使其能够更好地模拟真实世界场景,为RAG系统的实际部署提供有价值的参考。未来,DRAGON的评估框架和方法可以推广到其他语言和领域。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) is a widely adopted approach for improving the factuality of large language models (LLMs) by incorporating external knowledge at inference time. Although there exist multiple RAG benchmarks for English, evaluation resources for other languages, including Russian, remain scarce and static, failing to capture the dynamic nature of real-world deployments. In this work, we present DRAGON (Dynamic RAG Benchmark On News), the first dynamic benchmark for evaluating RAG systems in Russian on a changing news corpora. DRAGON is built upon a regularly updated corpus of Russian news and public documents and supports comprehensive evaluation of both the retriever and generator components. Question generation is performed automatically with the use of Knowledge Graph constructed from the corpus and enables the extraction of four core question types aligned with distinct subgraph patterns. We release a complete evaluation framework comprising the pipeline for automatic question generation, evaluation scripts, which are potentially reusable for other languages and multilingual settings, and benchmark data. We also launch a public leaderboard to encourage community participation and comparison.