Vertraust du KI bei deinenSchriftsätzen?

Zusammen untersuchen wir mit BenGER (Benchmark for German Law), wie viel Vertrauen tatsächlich gerechtfertigt ist. Dafür bauen wir ein umfassendes Evaluierungsframework für LLMs im deutschen Recht. Mach mit!

Loslegen

Noch kein Konto? Konto erstellen

Über BenGER

BenGER ist eine Open-Source-Webplattform, die Aufgabenerstellung, kollaborative Annotation, konfigurierbare LLM-Ausführung und Evaluierung mit lexikalischen, semantischen, faktischen und Judge-basierten Metriken in einem durchgängigen Workflow vereint. Sie ist so konzipiert, dass Fachexperten die gesamte Benchmarking-Pipeline ohne Programmierung bedienen können.

Kollaborative Annotation

Eine kollaborative Weboberfläche, die mehrere Aufgabenformate unterstützt: Freitext-Argumentation, Multiple Choice und Span-Annotation. Qualitätsmonitoring mit Fortschrittsverfolgung und Übereinstimmungsindikatoren ermöglicht es Projektleitern, zuverlässige menschliche Baselines systematisch aufzubauen.

Konfigurierbare LLM-Ausführung

Führen Sie beliebige LLMs auf Ihren Aufgaben aus -- mit konfigurierbaren API-Schlüsseln pro Benutzer oder Projekt. Unterstützt alle großen Modellanbieter einschließlich OpenAI, Anthropic, Google und Open-Source-Modelle über eine skalierbare Hintergrund-Ausführungspipeline.

Standardisierte Evaluierung

Ergebnisse werden mit einem breiten Satz von Metriken evaluiert: lexikalisch, semantisch, faktisch, klassifikationsbasiert und LLM-as-a-Judge. Alle Metrikkonfigurationen werden als explizite, überprüfbare Artefakte für transparente Berichterstattung und Reproduzierbarkeit gespeichert.

Multi-Organisations-Kollaboration

Konzipiert für kollaborative Forschung zwischen Universitäten, öffentlichen Einrichtungen und NGOs. Mandantenisolierung und rollenbasierte Zugriffskontrolle ermöglichen feingranulares Teilen ohne organisationsübergreifenden Datenverlust.

Formatives Feedback

Annotatoren können optional LLM-basiertes, referenzgestütztes Feedback erhalten, das fehlende Argumentationsschritte und häufige Fehler hervorhebt -- zur Verbesserung des Lernwerts und der Annotationsqualität, während die Expertenaufsicht die Kontrolle behält.

Open Source & Erweiterbar

Veröffentlicht als freie Open-Source-Software, lokal oder institutionell einsetzbar. Die Metrik- und Modellintegrationsschichten sind für schrittweise Erweiterung konzipiert -- neue Aufgaben, Anbieter oder Bewertungsmethoden können ohne Neuschreiben von Pipelines hinzugefügt werden.

Aktuelle News & Publikationen

Bleiben Sie auf dem Laufenden über unsere neueste Forschung, Publikationen und Projektneuigkeiten.

Publikation

BenGER: Datensatz & Benchmark veröffentlicht

Unser erster offener, großangelegter Benchmark für subsumtionsbasiertes Reasoning im deutschen Recht — 12 LLM-Systeme, echtes Human-Baseline, Co-Creation-Daten und ein gegen sieben menschliche Bewerter validierter LLM-Judge. Offen unter CC BY 4.0.

2026-06-07Weiterlesen →

Publikation

BenGER Plattform-Release

Die BenGER-Plattform ist nun öffentlich verfügbar. Der Beitrag erläutert das Open-Core-Release, den Funktionsumfang und wie Sie Ihre eigenen Legal-KI-Benchmarks erstellen.

2026-05-03Weiterlesen →

News

BenGER Benchathon 2026

Der erste BenGER Benchathon findet am 14.–15. März 2026 in Zusammenarbeit mit dem Legal Tech Verband statt. Studierende und Juristen lösen Aufgaben und sammeln Punkte auf einem Leaderboard.

2026-02-25Weiterlesen →

News

BenGER Plattform-Update und Roadmap

Die BenGER-Plattform ist fertiggestellt und ermöglicht es fachlichen Laien — typischerweise Berufsjuristen — schnell eigene Benchmarks aus eigenen Dokumenten zu erstellen, um die Leistung von KI-Tools zu bewerten.

2026-01-25Weiterlesen →

Publikation

Erster Einblick in BenGER — Poster Tübingen AI & Law

BenGER wurde als Poster auf der Artificial Intelligence & Law Konferenz in Tübingen vorgestellt. Die Plattform wird nach Konferenzannahme als freie Software veröffentlicht.

2025-11-07Weiterlesen →

Personen & Netzwerk

Lernen Sie das Team hinter BenGER und unsere Partner in der juristischen KI-Forschung kennen.

Team — Plattform

Sebastian Nagl

Projektleiter & Entwickler

Technische Universität München

Matthias Grabmair

Projektleitung

Technische Universität München

Team — Datensatz

Hauptbeitragender

Sebastian Nagl

Projektleiter & Entwickler

Technische Universität München

Datensatz-Beitrag

Ann-Kristin Mayrhofer

Zivilrecht

LMU München

Martin Heidebach

Öffentliches Recht

LMU München

Anne Zettelmeier

Strafrecht

Universität des Saarlandes

Aleyna Kocak

Strafrecht

Universität Freiburg

Angelina Greiner

Wissenschaftliche Hilfskraft

Technische Universität München

Elly Breu

Wissenschaftliche Hilfskraft

Technische Universität München

Sofija Milijas

Projektkoordination

Technische Universität München

Senior Authors

Matthias Grabmair

Projektleitung

Technische Universität München

Danksagungen

Liane Wörner

Strafrecht

Universität Freiburg

Sarah Rachut

Öffentliches Recht

TU Braunschweig

Dominik Brodowski

Strafrecht

Universität des Saarlandes

Philipp Reuß

Zivilrecht

Universität Göttingen

Peter Moser

Koordination

LMU München

Markus Langer

Psychologie

Universität Freiburg

Asya Caroei

Psychologie

Universität Freiburg

Clemens Hufeld

Organisation

Legal Tech Verband / Noxtua

Daniella Domokos

Organisation

Legal Tech Verband / Liquid Legal Institute

Netzwerk & Partner

Technische Universität München

Lehrstuhl für Legal Technology

Daimler Benz Stiftung

Förderung von Exzellenz in Wissenschaft und Bildung

TU Braunschweig

Technische Universität Braunschweig

Universität Konstanz

University of Konstanz

Universität des Saarlandes

Saarland University

Universität Freiburg

Albert-Ludwigs-Universität Freiburg

Universität Göttingen

Georg-August-Universität Göttingen

Legal Tech Verband (LTV)

Deutscher Legal Tech Verband

Noxtua

Kooperationspartner

Lizenz & Zitation

Wie Sie unsere Arbeit nutzen und zitieren.

Plattform

Apache License 2.0

Der Quellcode der BenGER-Plattform ist Open Source unter der Apache License 2.0. Sie dürfen ihn -- auch kommerziell -- frei nutzen, anpassen und weiterverbreiten, solange eine angemessene Namensnennung erfolgt.

Benchmark-Datensatz

CC BY 4.0 Lizenz

Der BenGER-Benchmark-Datensatz ist unter Creative Commons Namensnennung 4.0 (CC BY 4.0) veröffentlicht. Sie dürfen die Daten für jeden Zweck teilen und anpassen, solange eine angemessene Namensnennung erfolgt.

Zitierweise

Bitte verwenden Sie die passende Zitation, je nachdem ob Sie sich auf die Plattform oder den Benchmark-Datensatz beziehen.

BenGER Plattform

@inproceedings{nagl2026benger,
  title={{BenGER}: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks},
  author={Nagl, Sebastian and Grabmair, Matthias},
  booktitle={Proceedings of the International Conference on Artificial Intelligence and Law (ICAIL)},
  year={2026},
  address={Singapore}
}

BenGER Benchmark-Datensatz

@article{nagl2026bengerbench,
  title={{BenGER}: Benchmarking {LLM} Systems on Subsumption-Based Legal Reasoning in German Law},
  author={Nagl, Sebastian and Mayrhofer, Ann-Kristin and Heidebach, Martin and Ko{\c{c}}ak, Aleyna and Zettelmeier, Anne and Breu, Elly and Greiner, Angelina and Milijas, Sofija and Grabmair, Matthias},
  year={2026},
  eprint={2605.28183},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  doi={10.5281/zenodo.20409635}
}