Vertraust du KI bei deinenSchriftsÀtzen?
Zusammen untersuchen wir mit BenGER (Benchmark for German Law), wie viel Vertrauen tatsĂ€chlich gerechtfertigt ist. DafĂŒr bauen wir ein umfassendes Evaluierungsframework fĂŒr LLMs im deutschen Recht. Mach mit!
Noch kein Konto? Konto erstellen
Ăber BenGER
BenGER ist eine Open-Source-Webplattform, die Aufgabenerstellung, kollaborative Annotation, konfigurierbare LLM-AusfĂŒhrung und Evaluierung mit lexikalischen, semantischen, faktischen und Judge-basierten Metriken in einem durchgĂ€ngigen Workflow vereint. Sie ist so konzipiert, dass Fachexperten die gesamte Benchmarking-Pipeline ohne Programmierung bedienen können.
Kollaborative Annotation
Eine kollaborative WeboberflĂ€che, die mehrere Aufgabenformate unterstĂŒtzt: Freitext-Argumentation, Multiple Choice und Span-Annotation. QualitĂ€tsmonitoring mit Fortschrittsverfolgung und Ăbereinstimmungsindikatoren ermöglicht es Projektleitern, zuverlĂ€ssige menschliche Baselines systematisch aufzubauen.
Konfigurierbare LLM-AusfĂŒhrung
FĂŒhren Sie beliebige LLMs auf Ihren Aufgaben aus -- mit konfigurierbaren API-SchlĂŒsseln pro Benutzer oder Projekt. UnterstĂŒtzt alle groĂen Modellanbieter einschlieĂlich OpenAI, Anthropic, Google und Open-Source-Modelle ĂŒber eine skalierbare Hintergrund-AusfĂŒhrungspipeline.
Standardisierte Evaluierung
Ergebnisse werden mit einem breiten Satz von Metriken evaluiert: lexikalisch, semantisch, faktisch, klassifikationsbasiert und LLM-as-a-Judge. Alle Metrikkonfigurationen werden als explizite, ĂŒberprĂŒfbare Artefakte fĂŒr transparente Berichterstattung und Reproduzierbarkeit gespeichert.
Multi-Organisations-Kollaboration
Konzipiert fĂŒr kollaborative Forschung zwischen UniversitĂ€ten, öffentlichen Einrichtungen und NGOs. Mandantenisolierung und rollenbasierte Zugriffskontrolle ermöglichen feingranulares Teilen ohne organisationsĂŒbergreifenden Datenverlust.
Formatives Feedback
Annotatoren können optional LLM-basiertes, referenzgestĂŒtztes Feedback erhalten, das fehlende Argumentationsschritte und hĂ€ufige Fehler hervorhebt -- zur Verbesserung des Lernwerts und der AnnotationsqualitĂ€t, wĂ€hrend die Expertenaufsicht die Kontrolle behĂ€lt.
Open Source & Erweiterbar
Veröffentlicht als freie Open-Source-Software, lokal oder institutionell einsetzbar. Die Metrik- und Modellintegrationsschichten sind fĂŒr schrittweise Erweiterung konzipiert -- neue Aufgaben, Anbieter oder Bewertungsmethoden können ohne Neuschreiben von Pipelines hinzugefĂŒgt werden.
Aktuelle News & Publikationen
Bleiben Sie auf dem Laufenden ĂŒber unsere neueste Forschung, Publikationen und Projektneuigkeiten.
BenGER: Datensatz & Benchmark veröffentlicht
Unser erster offener, groĂangelegter Benchmark fĂŒr subsumtionsbasiertes Reasoning im deutschen Recht â 12 LLM-Systeme, echtes Human-Baseline, Co-Creation-Daten und ein gegen sieben menschliche Bewerter validierter LLM-Judge. Offen unter CC BY 4.0.
BenGER Plattform-Release
Die BenGER-Plattform ist nun öffentlich verfĂŒgbar. Der Beitrag erlĂ€utert das Open-Core-Release, den Funktionsumfang und wie Sie Ihre eigenen Legal-KI-Benchmarks erstellen.
BenGER Benchathon 2026
Der erste BenGER Benchathon findet am 14.â15. MĂ€rz 2026 in Zusammenarbeit mit dem Legal Tech Verband statt. Studierende und Juristen lösen Aufgaben und sammeln Punkte auf einem Leaderboard.
BenGER Plattform-Update und Roadmap
Die BenGER-Plattform ist fertiggestellt und ermöglicht es fachlichen Laien â typischerweise Berufsjuristen â schnell eigene Benchmarks aus eigenen Dokumenten zu erstellen, um die Leistung von KI-Tools zu bewerten.
Erster Einblick in BenGER â Poster TĂŒbingen AI & Law
BenGER wurde als Poster auf der Artificial Intelligence & Law Konferenz in TĂŒbingen vorgestellt. Die Plattform wird nach Konferenzannahme als freie Software veröffentlicht.
Personen & Netzwerk
Lernen Sie das Team hinter BenGER und unsere Partner in der juristischen KI-Forschung kennen.
Team â Plattform
Matthias Grabmair
Projektleitung
Technische UniversitĂ€t MĂŒnchen
Team â Datensatz
Hauptbeitragender
Datensatz-Beitrag
Ann-Kristin Mayrhofer
Zivilrecht
LMU MĂŒnchen
Martin Heidebach
Ăffentliches Recht
LMU MĂŒnchen
Anne Zettelmeier
Strafrecht
UniversitÀt des Saarlandes
Aleyna Kocak
Strafrecht
UniversitÀt Freiburg
Angelina Greiner
Wissenschaftliche Hilfskraft
Technische UniversitĂ€t MĂŒnchen
Elly Breu
Wissenschaftliche Hilfskraft
Technische UniversitĂ€t MĂŒnchen
Sofija Milijas
Projektkoordination
Technische UniversitĂ€t MĂŒnchen
Senior Authors
Matthias Grabmair
Projektleitung
Technische UniversitĂ€t MĂŒnchen
Danksagungen
Liane Wörner
Strafrecht
UniversitÀt Freiburg
Sarah Rachut
Ăffentliches Recht
TU Braunschweig
Dominik Brodowski
Strafrecht
UniversitÀt des Saarlandes
Philipp ReuĂ
Zivilrecht
UniversitÀt Göttingen
Peter Moser
Koordination
LMU MĂŒnchen
Markus Langer
Psychologie
UniversitÀt Freiburg
Asya Caroei
Psychologie
UniversitÀt Freiburg
Clemens Hufeld
Organisation
Legal Tech Verband / Noxtua
Daniella Domokos
Organisation
Legal Tech Verband / Liquid Legal Institute
Netzwerk & Partner
Daimler Benz Stiftung
Förderung von Exzellenz in Wissenschaft und Bildung
TU Braunschweig
Technische UniversitÀt Braunschweig
UniversitÀt Konstanz
University of Konstanz
UniversitÀt des Saarlandes
Saarland University
UniversitÀt Freiburg
Albert-Ludwigs-UniversitÀt Freiburg
UniversitÀt Göttingen
Georg-August-UniversitÀt Göttingen
Legal Tech Verband (LTV)
Deutscher Legal Tech Verband

Noxtua
Kooperationspartner
Lizenz & Zitation
Wie Sie unsere Arbeit nutzen und zitieren.
Plattform
Apache License 2.0
Der Quellcode der BenGER-Plattform ist Open Source unter der Apache License 2.0. Sie dĂŒrfen ihn -- auch kommerziell -- frei nutzen, anpassen und weiterverbreiten, solange eine angemessene Namensnennung erfolgt.
Benchmark-Datensatz
CC BY 4.0 Lizenz
Der BenGER-Benchmark-Datensatz ist unter Creative Commons Namensnennung 4.0 (CC BY 4.0) veröffentlicht. Sie dĂŒrfen die Daten fĂŒr jeden Zweck teilen und anpassen, solange eine angemessene Namensnennung erfolgt.
Zitierweise
Bitte verwenden Sie die passende Zitation, je nachdem ob Sie sich auf die Plattform oder den Benchmark-Datensatz beziehen.
BenGER Plattform
@inproceedings{nagl2026benger,
title={{BenGER}: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks},
author={Nagl, Sebastian and Grabmair, Matthias},
booktitle={Proceedings of the International Conference on Artificial Intelligence and Law (ICAIL)},
year={2026},
address={Singapore}
}BenGER Benchmark-Datensatz
@article{nagl2026bengerbench,
title={{BenGER}: Benchmarking {LLM} Systems on Subsumption-Based Legal Reasoning in German Law},
author={Nagl, Sebastian and Mayrhofer, Ann-Kristin and Heidebach, Martin and Ko{\c{c}}ak, Aleyna and Zettelmeier, Anne and Breu, Elly and Greiner, Angelina and Milijas, Sofija and Grabmair, Matthias},
year={2026},
eprint={2605.28183},
archivePrefix={arXiv},
primaryClass={cs.CL},
doi={10.5281/zenodo.20409635}
}