THIVLVC: Retrieval Augmented Dependency Parsing for Latin

作者: Luc Pommeret, Thibault Wagret, Jules Deret

分类: cs.CL

发布日期: 2026-04-07

期刊: EvaLatin (LT4HALA@LREC), ELRA, May 2026, Palma De Majorque, Spain

💡 一句话要点

THIVLVC：提出检索增强的拉丁语依存句法分析方法，显著提升诗歌解析精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 拉丁语依存句法分析 检索增强生成 大型语言模型 低资源语言处理 句法分析 树库检索 自然语言处理

📋 核心要点

拉丁语依存句法分析面临数据稀缺和注释不一致的挑战，影响了现有方法的性能。
THIVLVC通过检索与输入句子结构相似的树库条目，并利用大型语言模型进行解析优化，提升了分析精度。
实验结果表明，在诗歌数据集上，THIVLVC相较于UDPipe基线，CLAS指标提升了17个点，效果显著。

📝 摘要（中文）

本文介绍了THIVLVC，一个用于EvaLatin 2026依存句法分析任务的两阶段系统。给定一个拉丁语句子，系统首先利用句子长度和词性n-gram相似度从CIRCSE树库中检索结构相似的条目，然后提示大型语言模型（LLM）使用检索到的示例和UD注释指南来改进来自UDPipe的基线解析。我们提交了两种配置：一种没有检索，另一种使用检索（RAG）。在诗歌（塞内卡）上，THIVLVC比UDPipe基线提高了+17 CLAS；在散文（托马斯·阿奎那）上，增益为+1.5 CLAS。对我们的系统和黄金标准之间300个差异的双盲错误分析表明，在一致的注释者决策中，53.3%支持THIVLVC，表明树库内部和跨树库都存在注释不一致。

🔬 方法详解

问题定义：拉丁语依存句法分析任务旨在确定句子中每个词语之间的依存关系，构建句子的句法结构。现有方法在拉丁语上表现不佳，主要痛点在于拉丁语语料库规模相对较小，且不同树库之间存在注释标准不一致的问题，导致模型泛化能力受限。

核心思路：论文的核心思路是利用检索增强生成（RAG）的方法，通过检索与待分析句子相似的已标注句子，为大型语言模型提供上下文信息，从而提高依存句法分析的准确性。这种方法借鉴了人类在解决问题时参考相似案例的思路。

技术框架：THIVLVC系统包含两个主要阶段：检索阶段和解析阶段。在检索阶段，系统首先计算输入句子与CIRCSE树库中句子的长度和词性n-gram相似度，然后选择最相似的句子作为检索结果。在解析阶段，系统将检索到的句子及其依存关系作为提示，输入到大型语言模型中，指导模型对输入句子进行依存句法分析。UDPipe的输出作为基线，由LLM进行修正。

关键创新：该方法的主要创新在于将检索增强技术应用于拉丁语依存句法分析。通过检索相似的已标注句子，系统能够有效地利用有限的拉丁语语料库，提高模型的泛化能力。此外，利用大型语言模型进行解析优化，可以进一步提高分析的准确性。

关键设计：在检索阶段，论文使用了句子长度和词性n-gram相似度作为检索指标。在解析阶段，论文使用了大型语言模型，并将其设置为根据检索到的示例和UD注释指南来改进UDPipe的基线解析结果。具体使用哪个LLM，以及prompt的具体形式，论文中没有明确说明，属于未知信息。

📊 实验亮点

实验结果表明，THIVLVC系统在诗歌数据集（塞内卡）上，相较于UDPipe基线，CLAS指标提升了17个点，效果显著。在散文数据集（托马斯·阿奎那）上，CLAS指标提升了1.5个点。错误分析表明，在人工判定的情况下，THIVLVC的分析结果在超过50%的情况下更符合标准。

🎯 应用场景

该研究成果可应用于古籍数字化、拉丁语教学、古代文献研究等领域。通过提高拉丁语依存句法分析的准确性，可以更有效地理解和利用古代文献，促进相关领域的研究和发展。该方法也为其他低资源语言的句法分析提供了借鉴。

📄 摘要（原文）

We describe THIVLVC, a two-stage system for the EvaLatin 2026 Dependency Parsing task. Given a Latin sentence, we retrieve structurally similar entries from the CIRCSE treebank using sentence length and POS n-gram similarity, then prompt a large language model to refine the baseline parse from UDPipe using the retrieved examples and UD annotation guidelines. We submit two configurations: one without retrieval and one with retrieval (RAG). On poetry (Seneca), THIVLVC improves CLAS by +17 points over the UDPipe baseline; on prose (Thomas Aquinas), the gain is +1.5 CLAS. A double-blind error analysis of 300 divergences between our system and the gold standard reveals that, among unanimous annotator decisions, 53.3% favour THIVLVC, showing annotation inconsistencies both within and across treebanks.

THIVLVC: Retrieval Augmented Dependency Parsing for Latin

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理