Double Triangle Annotation: A Scalable Human-in-the-Loop Framework for High-Precision Historical Document Annotation

作者: Yi Ren

分类: cs.CL

发布日期: 2026-05-25

备注: 12 pages, 4 figures. ACL ARR 2026 March submission

💡 一句话要点

提出双三角标注框架，利用多模态大模型共识，实现历史文档高精度标注。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 历史文档处理 结构化信息提取 人机协同 多模态大模型 共识机制

📋 核心要点

现有历史文档结构化信息提取依赖人工标注，成本高昂，全自动方法又易出错。
提出双三角标注框架，利用多模态大模型间的共识机制，减少人工干预，提升标注效率。
在Rosenwald Guides数据集上，该框架实现了0.003的词错误率，并自动接受了超过85%的字段。

📝 摘要（中文）

为了大规模评估从历史文档中提取结构化信息的效果，需要高精度的真值标注。传统的手工标注成本高昂，而完全依赖大型语言模型的自动化流程容易产生幻觉。本文提出了一种双三角标注框架，这是一个双层人机协同框架，利用跨模型共识来自动化大部分标注工作，同时确保高精度的输出。在第一层，两个架构上独立的Multimodal Large Language Models并行地标注每个文档；当它们达成一致时，该标签被自动接受，而分歧则被路由到人工仲裁。第二层交叉检查两个这样的系统，将剩余的冲突升级给领域专家。该框架基于一个简单的假设——模型之间的误差独立性——不需要分布先验或特定于任务的校准，并且随着模型能力的提高而变得更加自主。在Guides Rosenwald（一个跨越1887-1906年的法国医学目录语料库）上，该框架实现了0.003的最终词错误率。大规模应用时，模型共识自动接受了超过85%的13,595个字段。我们发布了由此产生的基准——Rosenwald Guides的第一个结构化提取真值——以支持未来在历史文档处理方面的工作。

🔬 方法详解

问题定义：论文旨在解决历史文档结构化信息提取中，大规模、高精度标注数据获取困难的问题。现有方法要么依赖耗时耗力的人工标注，要么采用容易产生幻觉的全自动方法，无法兼顾效率和精度。

核心思路：核心思路是利用多个独立的多模态大语言模型进行并行标注，并基于模型间的共识自动接受标注结果。只有当模型间存在分歧时，才引入人工干预。通过多层级的共识校验，逐步减少错误，最终获得高精度的标注结果。这种方法的核心假设是模型间的错误是相互独立的。

技术框架：该框架包含两层结构。第一层由两个架构独立的Multimodal Large Language Models并行标注文档。如果两个模型达成一致，则自动接受标注结果；如果存在分歧，则将分歧提交给人工仲裁。第二层交叉检查两个第一层系统，将剩余的冲突升级给领域专家。整个流程旨在最大程度地利用模型共识，减少人工干预，同时保证标注精度。

关键创新：该方法的核心创新在于利用跨模型共识来自动化标注流程，并设计了双层级的校验机制，以确保最终标注结果的高精度。与传统方法相比，该方法显著降低了人工标注的成本，并避免了全自动方法中常见的幻觉问题。该方法不需要任务特定的校准或分布先验，具有较强的通用性。

关键设计：框架的关键设计在于模型选择和冲突解决策略。选择架构独立的Multimodal Large Language Models可以降低模型间错误的相关性。冲突解决策略采用分层机制，首先由人工仲裁解决常见冲突，然后由领域专家解决复杂冲突。论文未提及具体的参数设置、损失函数或网络结构，因为该框架主要关注标注流程的设计，而非特定模型的优化。

🖼️ 关键图片

📊 实验亮点

该框架在Guides Rosenwald数据集上取得了显著成果，最终词错误率仅为0.003。通过模型共识，该框架自动接受了超过85%的13,595个字段的标注结果，大幅降低了人工标注的工作量。同时，该研究发布了Rosenwald Guides数据集的结构化提取真值，为历史文档处理领域的未来研究提供了宝贵的基准。

🎯 应用场景

该研究成果可广泛应用于历史文档数字化、古籍整理、医学文献信息提取等领域。通过高效、高精度地提取历史文档中的结构化信息，可以为历史研究、医学研究等提供有力的数据支持，并促进相关领域的知识发现和创新。

📄 摘要（原文）

Evaluating structured-information extraction from historical documents at scale requires high-precision ground-truth annotations, yet traditional manual labeling is expensive and fully automated pipelines built on large language models are prone to hallucination. We propose Double Triangle Annotation, a two-layer human-in-the-loop framework that leverages cross-model consensus to automate the majority of annotation work while ensuring high-precision outputs. In the first layer, two architecturally independent Multimodal Large Language Models annotate each document in parallel; when they agree, the label is auto-accepted, and disagreements are routed to a human jury. A second layer cross-checks two such systems against each other, escalating residual conflicts to a domain expert. The framework rests on a single assumption -- error independence between models -- requires no distributional priors or task-specific calibration, and becomes more autonomous as model capability improves. On the Guides Rosenwald, a corpus of French medical directories spanning 1887-1906, the framework achieves a final Word Error Rate of 0.003. Applied at scale, model consensus auto-accepts over 85% of 13,595 fields. We release the resulting benchmark -- the first structured-extraction ground truth for the Rosenwald Guides -- to support future work on historical document processing.

Double Triangle Annotation: A Scalable Human-in-the-Loop Framework for High-Precision Historical Document Annotation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理