BenGER
🤘BenGER
🇩🇪
Anmelden

Vertraust du KI bei deinenSchriftsätzen?

Zusammen untersuchen wir mit BenGER (Benchmark for German Law), wie viel Vertrauen tatsächlich gerechtfertigt ist. Dafür bauen wir ein umfassendes Evaluierungsframework für LLMs im deutschen Recht. Mach mit!

Noch kein Konto? Konto erstellen

Über BenGER

BenGER ist eine Open-Source-Webplattform, die Aufgabenerstellung, kollaborative Annotation, konfigurierbare LLM-Ausführung und Evaluierung mit lexikalischen, semantischen, faktischen und Judge-basierten Metriken in einem durchgängigen Workflow vereint. Sie ist so konzipiert, dass Fachexperten die gesamte Benchmarking-Pipeline ohne Programmierung bedienen können.

Kollaborative Annotation

Eine kollaborative Weboberfläche, die mehrere Aufgabenformate unterstützt: Freitext-Argumentation, Multiple Choice und Span-Annotation. Qualitätsmonitoring mit Fortschrittsverfolgung und Übereinstimmungsindikatoren ermöglicht es Projektleitern, zuverlässige menschliche Baselines systematisch aufzubauen.

Konfigurierbare LLM-Ausführung

Führen Sie beliebige LLMs auf Ihren Aufgaben aus -- mit konfigurierbaren API-Schlüsseln pro Benutzer oder Projekt. Unterstützt alle großen Modellanbieter einschließlich OpenAI, Anthropic, Google und Open-Source-Modelle über eine skalierbare Hintergrund-Ausführungspipeline.

Standardisierte Evaluierung

Ergebnisse werden mit einem breiten Satz von Metriken evaluiert: lexikalisch, semantisch, faktisch, klassifikationsbasiert und LLM-as-a-Judge. Alle Metrikkonfigurationen werden als explizite, überprüfbare Artefakte für transparente Berichterstattung und Reproduzierbarkeit gespeichert.

Multi-Organisations-Kollaboration

Konzipiert für kollaborative Forschung zwischen Universitäten, öffentlichen Einrichtungen und NGOs. Mandantenisolierung und rollenbasierte Zugriffskontrolle ermöglichen feingranulares Teilen ohne organisationsübergreifenden Datenverlust.

Formatives Feedback

Annotatoren können optional LLM-basiertes, referenzgestütztes Feedback erhalten, das fehlende Argumentationsschritte und häufige Fehler hervorhebt -- zur Verbesserung des Lernwerts und der Annotationsqualität, während die Expertenaufsicht die Kontrolle behält.

Open Source & Erweiterbar

Veröffentlicht als freie Open-Source-Software, lokal oder institutionell einsetzbar. Die Metrik- und Modellintegrationsschichten sind für schrittweise Erweiterung konzipiert -- neue Aufgaben, Anbieter oder Bewertungsmethoden können ohne Neuschreiben von Pipelines hinzugefügt werden.

Personen & Netzwerk

Lernen Sie das Team hinter BenGER und unsere Partner in der juristischen KI-Forschung kennen.

Team — Plattform

Sebastian Nagl

Projektleiter & Entwickler

Technische Universität München

Matthias Grabmair

Projektleitung

Technische Universität München

Team — Datensatz

Hauptbeitragender

Sebastian Nagl

Projektleiter & Entwickler

Technische Universität München

Datensatz-Beitrag

Ann-Kristin Mayrhofer

Zivilrecht

LMU München

Martin Heidebach

Öffentliches Recht

LMU München

Anne Zettelmeier

Strafrecht

Universität des Saarlandes

Aleyna Kocak

Strafrecht

Universität Freiburg

Angelina Greiner

Wissenschaftliche Hilfskraft

Technische Universität München

Elly Breu

Wissenschaftliche Hilfskraft

Technische Universität München

Johannes Sigmund

Wissenschaftlicher Mitarbeiter

TU Braunschweig

Senior Authors

Liane Wörner

Strafrecht

Universität Freiburg

Sarah Rachut

Öffentliches Recht

TU Braunschweig

Dominik Brodowski

Strafrecht

Universität des Saarlandes

Matthias Grabmair

Projektleitung

Technische Universität München

Danksagungen

Sofija Milijas

Projektkoordination

Technische Universität München

Philipp Reuß

Zivilrecht

Universität Göttingen

Peter Moser

Koordination

LMU München

Markus Langer

Psychologie

Universität Freiburg

Asya Caroei

Psychologie

Universität Freiburg

Clemens Hufeld

Organisation

Legal Tech Verband / Noxtua

Daniella Domokos

Organisation

Legal Tech Verband / Liquid Legal Institute

Netzwerk & Partner

Technische Universität München Logo

Technische Universität München

Lehrstuhl für Legal Technology

Daimler Benz Stiftung Logo

Daimler Benz Stiftung

Förderung von Exzellenz in Wissenschaft und Bildung

TU Braunschweig Logo

TU Braunschweig

Technische Universität Braunschweig

Universität Konstanz Logo

Universität Konstanz

University of Konstanz

Universität des Saarlandes Logo

Universität des Saarlandes

Saarland University

Universität Freiburg Logo

Universität Freiburg

Albert-Ludwigs-Universität Freiburg

Universität Göttingen Logo

Universität Göttingen

Georg-August-Universität Göttingen

Legal Tech Verband (LTV) Logo

Legal Tech Verband (LTV)

Deutscher Legal Tech Verband

Noxtua Logo

Noxtua

Kooperationspartner

Lizenz & Zitation

Wie Sie unsere Arbeit nutzen und zitieren.

Plattform

Apache License 2.0

Der Quellcode der BenGER-Plattform ist Open Source unter der Apache License 2.0. Sie dürfen ihn -- auch kommerziell -- frei nutzen, anpassen und weiterverbreiten, solange eine angemessene Namensnennung erfolgt.

Benchmark-Datensatz (geplant)

CC-BY Lizenz

Der BenGER-Benchmark-Datensatz wird unter Creative Commons Namensnennung (CC-BY) veröffentlicht. Sie werden die Daten für jeden Zweck teilen und anpassen dürfen, solange eine angemessene Namensnennung erfolgt.

Zitierweise

Bitte verwenden Sie die passende Zitation, je nachdem ob Sie sich auf die Plattform oder den Benchmark-Datensatz beziehen.

BenGER Plattform

@inproceedings{nagl2026benger,
  title={{BenGER}: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks},
  author={Nagl, Sebastian and Grabmair, Matthias},
  booktitle={Proceedings of the International Conference on Artificial Intelligence and Law (ICAIL)},
  year={2026},
  address={Singapore}
}

BenGER Benchmark-Datensatz

t.b.a.