BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks

📄 arXiv: 2604.13583v1 📥 PDF

作者: Sebastian Nagl, Matthias Grabmair

分类: cs.CL, cs.AI

发布日期: 2026-04-15

备注: Preprint - Accepted at ICAIL 2026


💡 一句话要点

BenGER:一个协同Web平台,用于端到端评测德语法律任务的大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律人工智能 大语言模型 基准测试 协同标注 德语法律 Web平台 端到端评估

📋 核心要点

  1. 现有法律领域大语言模型评测流程分散,缺乏统一平台,导致透明度和可复现性不足,非技术专家难以参与。
  2. BenGER框架通过集成任务创建、协同标注、模型运行和多维度评估,构建了一个端到端的Web平台。
  3. 该平台支持多组织协作,提供租户隔离和权限控制,并能为标注者提供参考反馈,提升标注质量。

📝 摘要(中文)

评估大型语言模型(LLMs)在法律推理方面的能力,需要涵盖任务设计、专家标注、模型执行和基于指标的评估等工作流程。然而,这些步骤通常分散在不同的平台和脚本中,限制了透明度、可复现性以及非技术法律专家的参与。本文提出了BenGER(德语法律基准)框架,这是一个开源的Web平台,集成了任务创建、协同标注、可配置的LLM运行以及使用词汇、语义、事实和法官判决等指标进行的评估。BenGER支持具有租户隔离和基于角色的访问控制的多组织项目,并且可以选择性地为标注者提供形成性的、参考依据的反馈。我们将演示一个实时部署,展示端到端的基准创建和分析。

🔬 方法详解

问题定义:现有的大语言模型在德语法律领域的推理能力评估面临诸多挑战。首先,评估流程涉及多个环节,包括任务设计、数据标注、模型运行和结果评估,这些环节通常使用不同的工具和平台,导致流程割裂。其次,法律领域的专业性强,需要法律专家的参与,但现有流程对非技术人员不够友好。此外,评估结果的透明度和可复现性也受到限制。

核心思路:BenGER的核心思路是构建一个统一的Web平台,将法律领域大语言模型评估的各个环节整合在一起,提供一个协同、透明、可复现的评估环境。通过降低技术门槛,吸引更多法律专家参与,从而提高评估的质量和效率。

技术框架:BenGER平台包含以下主要模块:1) 任务创建模块,允许用户定义和创建各种德语法律任务;2) 协同标注模块,支持多个标注者同时对数据进行标注,并提供反馈机制;3) 模型运行模块,允许用户配置和运行不同的LLM模型;4) 评估模块,使用多种指标(如词汇、语义、事实和法官判决)对模型结果进行评估。平台还提供租户隔离和基于角色的访问控制,以支持多组织协作。

关键创新:BenGER的关键创新在于其端到端的集成性和协同性。它将原本分散的评估环节整合到一个统一的平台中,降低了评估的复杂性,提高了效率。此外,平台还特别关注法律专家的参与,提供了友好的用户界面和反馈机制,使得非技术人员也能轻松参与评估过程。

关键设计:BenGER平台采用Web架构,使用户可以通过浏览器访问。平台使用开源技术栈构建,易于部署和维护。在数据标注方面,平台支持多种标注方式,并提供实时反馈,以提高标注质量。在模型运行方面,平台支持多种LLM模型,并允许用户自定义模型配置。评估指标包括词汇相似度、语义相似度、事实准确性和法官判决一致性等。

📊 实验亮点

论文展示了一个BenGER的实时部署,演示了端到端的基准创建和分析过程。通过该平台,用户可以方便地创建德语法律任务,进行协同标注,运行不同的LLM模型,并使用多种指标进行评估。具体的性能数据和对比基线在论文中未明确给出,属于未来工作方向。

🎯 应用场景

BenGER平台可应用于德语法律领域大语言模型的基准测试和能力评估,帮助研究人员和开发者更好地了解模型的性能,并促进模型的改进。此外,该平台还可用于法律教育和培训,帮助学生和从业人员提高法律推理能力。未来,该平台可以扩展到其他语言和法律领域,构建更广泛的法律人工智能评估体系。

📄 摘要(原文)

Evaluating large language models (LLMs) for legal reasoning requires workflows that span task design, expert annotation, model execution, and metric-based evaluation. In practice, these steps are split across platforms and scripts, limiting transparency, reproducibility, and participation by non-technical legal experts. We present the BenGER (Benchmark for German Law) framework, an open-source web platform that integrates task creation, collaborative annotation, configurable LLM runs, and evaluation with lexical, semantic, factual, and judge-based metrics. BenGER supports multi-organization projects with tenant isolation and role-based access control, and can optionally provide formative, reference-grounded feedback to annotators. We will demonstrate a live deployment showing end-to-end benchmark creation and analysis.