Vertraust du KI bei deinenSchriftsätzen?
Zusammen untersuchen wir mit BenGER (Benchmark for German Law), wie viel Vertrauen tatsächlich gerechtfertigt ist. Dafür bauen wir ein umfassendes Evaluierungsframework für LLMs im deutschen Recht. Mach mit!
Noch kein Konto? Konto erstellen
Über BenGER
BenGER ist eine Open-Source-Webplattform, die Aufgabenerstellung, kollaborative Annotation, konfigurierbare LLM-Ausführung und Evaluierung mit lexikalischen, semantischen, faktischen und Judge-basierten Metriken in einem durchgängigen Workflow vereint. Sie ist so konzipiert, dass Fachexperten die gesamte Benchmarking-Pipeline ohne Programmierung bedienen können.
Kollaborative Annotation
Eine kollaborative Weboberfläche, die mehrere Aufgabenformate unterstützt: Freitext-Argumentation, Multiple Choice und Span-Annotation. Qualitätsmonitoring mit Fortschrittsverfolgung und Übereinstimmungsindikatoren ermöglicht es Projektleitern, zuverlässige menschliche Baselines systematisch aufzubauen.
Konfigurierbare LLM-Ausführung
Führen Sie beliebige LLMs auf Ihren Aufgaben aus -- mit konfigurierbaren API-Schlüsseln pro Benutzer oder Projekt. Unterstützt alle großen Modellanbieter einschließlich OpenAI, Anthropic, Google und Open-Source-Modelle über eine skalierbare Hintergrund-Ausführungspipeline.
Standardisierte Evaluierung
Ergebnisse werden mit einem breiten Satz von Metriken evaluiert: lexikalisch, semantisch, faktisch, klassifikationsbasiert und LLM-as-a-Judge. Alle Metrikkonfigurationen werden als explizite, überprüfbare Artefakte für transparente Berichterstattung und Reproduzierbarkeit gespeichert.
Multi-Organisations-Kollaboration
Konzipiert für kollaborative Forschung zwischen Universitäten, öffentlichen Einrichtungen und NGOs. Mandantenisolierung und rollenbasierte Zugriffskontrolle ermöglichen feingranulares Teilen ohne organisationsübergreifenden Datenverlust.
Formatives Feedback
Annotatoren können optional LLM-basiertes, referenzgestütztes Feedback erhalten, das fehlende Argumentationsschritte und häufige Fehler hervorhebt -- zur Verbesserung des Lernwerts und der Annotationsqualität, während die Expertenaufsicht die Kontrolle behält.
Open Source & Erweiterbar
Veröffentlicht als freie Open-Source-Software, lokal oder institutionell einsetzbar. Die Metrik- und Modellintegrationsschichten sind für schrittweise Erweiterung konzipiert -- neue Aufgaben, Anbieter oder Bewertungsmethoden können ohne Neuschreiben von Pipelines hinzugefügt werden.
Aktuelle News & Publikationen
Bleiben Sie auf dem Laufenden über unsere neueste Forschung, Publikationen und Projektneuigkeiten.
BenGER Plattform-Release
Die BenGER-Plattform ist nun öffentlich verfügbar. Der Beitrag erläutert das Open-Core-Release, den Funktionsumfang und wie Sie Ihre eigenen Legal-KI-Benchmarks erstellen.
BenGER Benchathon 2026
Der erste BenGER Benchathon findet am 14.–15. März 2026 in Zusammenarbeit mit dem Legal Tech Verband statt. Studierende und Juristen lösen Aufgaben und sammeln Punkte auf einem Leaderboard.
BenGER Plattform-Update und Roadmap
Die BenGER-Plattform ist fertiggestellt und ermöglicht es fachlichen Laien — typischerweise Berufsjuristen — schnell eigene Benchmarks aus eigenen Dokumenten zu erstellen, um die Leistung von KI-Tools zu bewerten.
Erster Einblick in BenGER — Poster Tübingen AI & Law
BenGER wurde als Poster auf der Artificial Intelligence & Law Konferenz in Tübingen vorgestellt. Die Plattform wird nach Konferenzannahme als freie Software veröffentlicht.
Personen & Netzwerk
Lernen Sie das Team hinter BenGER und unsere Partner in der juristischen KI-Forschung kennen.
Team — Plattform
Matthias Grabmair
Projektleitung
Technische Universität München
Team — Datensatz
Hauptbeitragender
Datensatz-Beitrag
Ann-Kristin Mayrhofer
Zivilrecht
LMU München
Martin Heidebach
Öffentliches Recht
LMU München
Anne Zettelmeier
Strafrecht
Universität des Saarlandes
Aleyna Kocak
Strafrecht
Universität Freiburg
Angelina Greiner
Wissenschaftliche Hilfskraft
Technische Universität München
Elly Breu
Wissenschaftliche Hilfskraft
Technische Universität München
Johannes Sigmund
Wissenschaftlicher Mitarbeiter
TU Braunschweig
Senior Authors
Liane Wörner
Strafrecht
Universität Freiburg
Sarah Rachut
Öffentliches Recht
TU Braunschweig
Dominik Brodowski
Strafrecht
Universität des Saarlandes
Matthias Grabmair
Projektleitung
Technische Universität München
Danksagungen
Sofija Milijas
Projektkoordination
Technische Universität München
Philipp Reuß
Zivilrecht
Universität Göttingen
Peter Moser
Koordination
LMU München
Markus Langer
Psychologie
Universität Freiburg
Asya Caroei
Psychologie
Universität Freiburg
Clemens Hufeld
Organisation
Legal Tech Verband / Noxtua
Daniella Domokos
Organisation
Legal Tech Verband / Liquid Legal Institute
Netzwerk & Partner
Daimler Benz Stiftung
Förderung von Exzellenz in Wissenschaft und Bildung
TU Braunschweig
Technische Universität Braunschweig
Universität Konstanz
University of Konstanz
Universität des Saarlandes
Saarland University
Universität Freiburg
Albert-Ludwigs-Universität Freiburg
Universität Göttingen
Georg-August-Universität Göttingen
Legal Tech Verband (LTV)
Deutscher Legal Tech Verband

Noxtua
Kooperationspartner
Lizenz & Zitation
Wie Sie unsere Arbeit nutzen und zitieren.
Plattform
Apache License 2.0
Der Quellcode der BenGER-Plattform ist Open Source unter der Apache License 2.0. Sie dürfen ihn -- auch kommerziell -- frei nutzen, anpassen und weiterverbreiten, solange eine angemessene Namensnennung erfolgt.
Benchmark-Datensatz (geplant)
CC-BY Lizenz
Der BenGER-Benchmark-Datensatz wird unter Creative Commons Namensnennung (CC-BY) veröffentlicht. Sie werden die Daten für jeden Zweck teilen und anpassen dürfen, solange eine angemessene Namensnennung erfolgt.
Zitierweise
Bitte verwenden Sie die passende Zitation, je nachdem ob Sie sich auf die Plattform oder den Benchmark-Datensatz beziehen.
BenGER Plattform
@inproceedings{nagl2026benger,
title={{BenGER}: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks},
author={Nagl, Sebastian and Grabmair, Matthias},
booktitle={Proceedings of the International Conference on Artificial Intelligence and Law (ICAIL)},
year={2026},
address={Singapore}
}BenGER Benchmark-Datensatz
t.b.a.