Double Triangle Annotation: A Scalable Human-in-the-Loop Framework for High-Precision Historical Document Annotation

📄 arXiv: 2605.25781v1 📥 PDF

作者: Yi Ren

分类: cs.CL

发布日期: 2026-05-25

备注: 12 pages, 4 figures. ACL ARR 2026 March submission


💡 一句话要点

提出双三角标注框架,利用多模态大模型共识,实现历史文档高精度标注。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 历史文档处理 结构化信息提取 人机协同 多模态大模型 共识机制

📋 核心要点

  1. 现有历史文档结构化信息提取依赖人工标注,成本高昂,全自动方法又易出错。
  2. 提出双三角标注框架,利用多模态大模型间的共识机制,减少人工干预,提升标注效率。
  3. 在Rosenwald Guides数据集上,该框架实现了0.003的词错误率,并自动接受了超过85%的字段。

📝 摘要(中文)

为了大规模评估从历史文档中提取结构化信息的效果,需要高精度的真值标注。传统的手工标注成本高昂,而完全依赖大型语言模型的自动化流程容易产生幻觉。本文提出了一种双三角标注框架,这是一个双层人机协同框架,利用跨模型共识来自动化大部分标注工作,同时确保高精度的输出。在第一层,两个架构上独立的Multimodal Large Language Models并行地标注每个文档;当它们达成一致时,该标签被自动接受,而分歧则被路由到人工仲裁。第二层交叉检查两个这样的系统,将剩余的冲突升级给领域专家。该框架基于一个简单的假设——模型之间的误差独立性——不需要分布先验或特定于任务的校准,并且随着模型能力的提高而变得更加自主。在Guides Rosenwald(一个跨越1887-1906年的法国医学目录语料库)上,该框架实现了0.003的最终词错误率。大规模应用时,模型共识自动接受了超过85%的13,595个字段。我们发布了由此产生的基准——Rosenwald Guides的第一个结构化提取真值——以支持未来在历史文档处理方面的工作。

🔬 方法详解

问题定义:论文旨在解决历史文档结构化信息提取中,大规模、高精度标注数据获取困难的问题。现有方法要么依赖耗时耗力的人工标注,要么采用容易产生幻觉的全自动方法,无法兼顾效率和精度。

核心思路:核心思路是利用多个独立的多模态大语言模型进行并行标注,并基于模型间的共识自动接受标注结果。只有当模型间存在分歧时,才引入人工干预。通过多层级的共识校验,逐步减少错误,最终获得高精度的标注结果。这种方法的核心假设是模型间的错误是相互独立的。

技术框架:该框架包含两层结构。第一层由两个架构独立的Multimodal Large Language Models并行标注文档。如果两个模型达成一致,则自动接受标注结果;如果存在分歧,则将分歧提交给人工仲裁。第二层交叉检查两个第一层系统,将剩余的冲突升级给领域专家。整个流程旨在最大程度地利用模型共识,减少人工干预,同时保证标注精度。

关键创新:该方法的核心创新在于利用跨模型共识来自动化标注流程,并设计了双层级的校验机制,以确保最终标注结果的高精度。与传统方法相比,该方法显著降低了人工标注的成本,并避免了全自动方法中常见的幻觉问题。该方法不需要任务特定的校准或分布先验,具有较强的通用性。

关键设计:框架的关键设计在于模型选择和冲突解决策略。选择架构独立的Multimodal Large Language Models可以降低模型间错误的相关性。冲突解决策略采用分层机制,首先由人工仲裁解决常见冲突,然后由领域专家解决复杂冲突。论文未提及具体的参数设置、损失函数或网络结构,因为该框架主要关注标注流程的设计,而非特定模型的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该框架在Guides Rosenwald数据集上取得了显著成果,最终词错误率仅为0.003。通过模型共识,该框架自动接受了超过85%的13,595个字段的标注结果,大幅降低了人工标注的工作量。同时,该研究发布了Rosenwald Guides数据集的结构化提取真值,为历史文档处理领域的未来研究提供了宝贵的基准。

🎯 应用场景

该研究成果可广泛应用于历史文档数字化、古籍整理、医学文献信息提取等领域。通过高效、高精度地提取历史文档中的结构化信息,可以为历史研究、医学研究等提供有力的数据支持,并促进相关领域的知识发现和创新。

📄 摘要(原文)

Evaluating structured-information extraction from historical documents at scale requires high-precision ground-truth annotations, yet traditional manual labeling is expensive and fully automated pipelines built on large language models are prone to hallucination. We propose Double Triangle Annotation, a two-layer human-in-the-loop framework that leverages cross-model consensus to automate the majority of annotation work while ensuring high-precision outputs. In the first layer, two architecturally independent Multimodal Large Language Models annotate each document in parallel; when they agree, the label is auto-accepted, and disagreements are routed to a human jury. A second layer cross-checks two such systems against each other, escalating residual conflicts to a domain expert. The framework rests on a single assumption -- error independence between models -- requires no distributional priors or task-specific calibration, and becomes more autonomous as model capability improves. On the Guides Rosenwald, a corpus of French medical directories spanning 1887-1906, the framework achieves a final Word Error Rate of 0.003. Applied at scale, model consensus auto-accepts over 85% of 13,595 fields. We release the resulting benchmark -- the first structured-extraction ground truth for the Rosenwald Guides -- to support future work on historical document processing.