BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks

作者: Sebastian Nagl, Matthias Grabmair

分类: cs.CL, cs.AI

发布日期: 2026-04-15

备注: Preprint - Accepted at ICAIL 2026

💡 一句话要点

BenGER：一个协同Web平台，用于端到端评测德语法律任务的大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 法律人工智能 大语言模型 基准测试 协同标注 德语法律 Web平台 端到端评估

📋 核心要点

现有法律领域大语言模型评测流程分散，缺乏统一平台，导致透明度和可复现性不足，非技术专家难以参与。
BenGER框架通过集成任务创建、协同标注、模型运行和多维度评估，构建了一个端到端的Web平台。
该平台支持多组织协作，提供租户隔离和权限控制，并能为标注者提供参考反馈，提升标注质量。

📝 摘要（中文）

评估大型语言模型（LLMs）在法律推理方面的能力，需要涵盖任务设计、专家标注、模型执行和基于指标的评估等工作流程。然而，这些步骤通常分散在不同的平台和脚本中，限制了透明度、可复现性以及非技术法律专家的参与。本文提出了BenGER（德语法律基准）框架，这是一个开源的Web平台，集成了任务创建、协同标注、可配置的LLM运行以及使用词汇、语义、事实和法官判决等指标进行的评估。BenGER支持具有租户隔离和基于角色的访问控制的多组织项目，并且可以选择性地为标注者提供形成性的、参考依据的反馈。我们将演示一个实时部署，展示端到端的基准创建和分析。

🔬 方法详解

问题定义：现有的大语言模型在德语法律领域的推理能力评估面临诸多挑战。首先，评估流程涉及多个环节，包括任务设计、数据标注、模型运行和结果评估，这些环节通常使用不同的工具和平台，导致流程割裂。其次，法律领域的专业性强，需要法律专家的参与，但现有流程对非技术人员不够友好。此外，评估结果的透明度和可复现性也受到限制。

核心思路：BenGER的核心思路是构建一个统一的Web平台，将法律领域大语言模型评估的各个环节整合在一起，提供一个协同、透明、可复现的评估环境。通过降低技术门槛，吸引更多法律专家参与，从而提高评估的质量和效率。

技术框架：BenGER平台包含以下主要模块：1) 任务创建模块，允许用户定义和创建各种德语法律任务；2) 协同标注模块，支持多个标注者同时对数据进行标注，并提供反馈机制；3) 模型运行模块，允许用户配置和运行不同的LLM模型；4) 评估模块，使用多种指标（如词汇、语义、事实和法官判决）对模型结果进行评估。平台还提供租户隔离和基于角色的访问控制，以支持多组织协作。

关键创新：BenGER的关键创新在于其端到端的集成性和协同性。它将原本分散的评估环节整合到一个统一的平台中，降低了评估的复杂性，提高了效率。此外，平台还特别关注法律专家的参与，提供了友好的用户界面和反馈机制，使得非技术人员也能轻松参与评估过程。

关键设计：BenGER平台采用Web架构，使用户可以通过浏览器访问。平台使用开源技术栈构建，易于部署和维护。在数据标注方面，平台支持多种标注方式，并提供实时反馈，以提高标注质量。在模型运行方面，平台支持多种LLM模型，并允许用户自定义模型配置。评估指标包括词汇相似度、语义相似度、事实准确性和法官判决一致性等。

📊 实验亮点

论文展示了一个BenGER的实时部署，演示了端到端的基准创建和分析过程。通过该平台，用户可以方便地创建德语法律任务，进行协同标注，运行不同的LLM模型，并使用多种指标进行评估。具体的性能数据和对比基线在论文中未明确给出，属于未来工作方向。

🎯 应用场景

BenGER平台可应用于德语法律领域大语言模型的基准测试和能力评估，帮助研究人员和开发者更好地了解模型的性能，并促进模型的改进。此外，该平台还可用于法律教育和培训，帮助学生和从业人员提高法律推理能力。未来，该平台可以扩展到其他语言和法律领域，构建更广泛的法律人工智能评估体系。

📄 摘要（原文）

Evaluating large language models (LLMs) for legal reasoning requires workflows that span task design, expert annotation, model execution, and metric-based evaluation. In practice, these steps are split across platforms and scripts, limiting transparency, reproducibility, and participation by non-technical legal experts. We present the BenGER (Benchmark for German Law) framework, an open-source web platform that integrates task creation, collaborative annotation, configurable LLM runs, and evaluation with lexical, semantic, factual, and judge-based metrics. BenGER supports multi-organization projects with tenant isolation and role-based access control, and can optionally provide formative, reference-grounded feedback to annotators. We will demonstrate a live deployment showing end-to-end benchmark creation and analysis.

BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理