Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization
作者: Renyu Li, Vladimir Kirilenko, Yao You, Crag Wolfe
分类: cs.CV
发布日期: 2026-04-13
备注: 12 pages, 6 figures, 5 tables
💡 一句话要点
提出Agentic Harmonization方法,解决跨数据集标注不一致的版面分析问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 文档版面分析 目标检测 视觉-语言模型 标注协调 跨数据集学习
📋 核心要点
- 现有方法在混合不同标注规范的数据集时,由于标注不一致性,导致模型性能下降。
- 提出Agentic Harmonization方法,利用视觉-语言模型协调不同数据集的类别语义和边界框粒度。
- 实验表明,该方法在文档版面检测任务上,显著提升了检测精度和表格结构识别的准确性。
📝 摘要(中文)
在混合数据集上微调目标检测模型时,通常假设标注兼容性,但不同数据集对语义等价类别的空间定义往往存在冲突。本文提出了一种agentic标签协调工作流程,该流程使用视觉-语言模型来协调异构数据源之间的类别语义和边界框粒度,然后再进行训练。我们以文档版面检测作为一个具有挑战性的案例研究,其中标注标准在不同语料库中差异很大。在没有协调的情况下,直接混合数据集微调预训练的RT-DETRv2检测器会导致性能下降:在SCORE-Bench上,表格TEDS从0.800降至0.750。对于两个仅有8个直接对应的16类和10类分类体系的语料库,协调在内容保真度、表格结构和空间一致性方面均取得了持续的提升:检测F-score从0.860提高到0.883,表格TEDS提高到0.814,平均边界框重叠从0.043降至0.016。表征分析进一步表明,协调训练产生更紧凑和可分离的后解码器嵌入,证实了标注不一致会扭曲学习到的特征空间,并且在训练前解决它可以恢复表征结构。
🔬 方法详解
问题定义:论文旨在解决跨数据集的文档版面分析任务中,由于不同数据集的标注规范不一致,导致模型在混合数据集上训练时性能下降的问题。现有方法直接混合不同标注的数据集进行训练,忽略了标注差异带来的负面影响,导致模型学习到的特征空间扭曲,泛化能力降低。
核心思路:论文的核心思路是利用视觉-语言模型(Vision-Language Model)作为“agent”,对不同数据集的标注进行协调(Harmonization)。通过视觉-语言模型的语义理解能力,将不同数据集中的语义等价类别映射到统一的语义空间,并调整边界框的粒度,从而消除标注不一致性。这样设计的目的是为了使模型能够学习到更鲁棒、更泛化的特征表示,提高在混合数据集上的性能。
技术框架:整体框架包含以下几个主要步骤:1) 标注协调(Harmonization):使用视觉-语言模型分析不同数据集的类别定义和边界框标注方式,学习它们之间的映射关系。2) 数据转换:根据学习到的映射关系,将不同数据集的标注转换为统一的标注规范。3) 模型训练:使用转换后的数据训练目标检测模型。4) 评估:在测试集上评估模型的性能。
关键创新:最重要的技术创新点在于提出了Agentic Harmonization的概念,并利用视觉-语言模型自动协调不同数据集的标注。与传统的手动标注对齐方法相比,该方法更加高效、可扩展,并且能够更好地捕捉类别之间的语义关系。
关键设计:论文使用了预训练的视觉-语言模型,例如CLIP,来学习类别之间的语义关系。具体来说,对于每个类别,论文使用视觉-语言模型生成一个文本描述,然后计算不同类别描述之间的相似度,从而建立类别之间的映射关系。此外,论文还设计了一种边界框调整策略,根据不同数据集的标注粒度,调整边界框的大小和位置。
📊 实验亮点
实验结果表明,在文档版面检测任务上,使用Agentic Harmonization方法后,检测F-score从0.860提高到0.883,表格TEDS提高到0.814,平均边界框重叠从0.043降至0.016。相比于直接混合数据集训练,该方法显著提升了模型性能,证明了标注协调的有效性。
🎯 应用场景
该研究成果可应用于文档智能、自动化办公、信息抽取等领域。通过协调不同来源的文档数据,可以提高文档分析系统的准确性和鲁棒性,降低人工标注成本,加速文档处理流程的自动化。未来,该方法可以推广到其他领域,例如医学影像分析、遥感图像分析等,解决跨数据集标注不一致的问题。
📄 摘要(原文)
Fine-tuning object detection (OD) models on combined datasets assumes annotation compatibility, yet datasets often encode conflicting spatial definitions for semantically equivalent categories. We propose an agentic label harmonization workflow that uses a vision-language model to reconcile both category semantics and bounding box granularity across heterogeneous sources before training. We evaluate on document layout detection as a challenging case study, where annotation standards vary widely across corpora. Without harmonization, naïve mixed-dataset fine-tuning degrades a pretrained RT-DETRv2 detector: on SCORE-Bench, which measures how accurately the full document conversion pipeline reproduces ground-truth structure, table TEDS drops from 0.800 to 0.750. Applied to two corpora whose 16 and 10 category taxonomies share only 8 direct correspondences, harmonization yields consistent gains across content fidelity, table structure, and spatial consistency: detection F-score improves from 0.860 to 0.883, table TEDS improves to 0.814, and mean bounding box overlap drops from 0.043 to 0.016. Representation analysis further shows that harmonized training produces more compact and separable post-decoder embeddings, confirming that annotation inconsistency distorts the learned feature space and that resolving it before training restores representation structure.