Beschreibung

Mit der Einführung der Europäischen Datenschutz-Grundverordnung (DSGVO) im Jahr 2018 haben personenbezogene Daten dramatisch an Aufmerksamkeit gewonnen und der Umgang mit diesen Daten ist genau zu hinterfragen. Anonymisierte Daten hingegen sind von der DSGVO ausgenommen, da sie keine Rückschlüsse auf natürliche Personen zulassen. Das Interesse an Datenanonymisierung ist deshalb stark gestiegen und führte zur Entwicklung verschiedenster Anonymisierungstechniken. Besonders beim Einsatz von KI, wie Prompting für Chatbots oder Training von Large Language Modellen (LLM), ist die Anonymisierung personenbezogener Daten gefragt. Das erfordert geeignete Modelle um ein zuverlässiges und datenschutzkonformes Ergebnis zu gewährleisten. Während für die englische Sprache bereits sehr gute Modelle existieren, ist deren Performance oft mangelhaft, wenn sie auf deutschsprachige Texte angewendet werden. Übergeordnetes Ziel des Projekts NERMAN ist die Erforschung von Modellen zur • Identifikation von personenbezogenen Informationen in deutschsprachigen Texten und darauf aufbauend • Methoden für eine angemessene Anonymisierung der identifizierten Inhalte. Kernaufgabe ist deshalb die Erforschung von Named-Entity-Recognition (NER) Modellen zur Detektion personenbezogener Inhalte. Dies soll anhand von zwei im Projekt zu definierenden Use Cases umgesetzt werden. Im Speziellen ist die Entwicklung eines NER-Modells geplant, das die Anonymisierung von Texten des BMI ermöglicht, wobei der Fokus auf E-Mail- und Chat-Korrespondenz liegen soll. Wesentliche Voraussetzung für die Modellentwicklung ist die Gewinnung geeigneter Trainings- und Testdaten. Dabei sollen echte Beispieldaten mit Web-Scraping von öffentlichen Informationen und synthetischer Datengenerierung kombiniert werden. Diese Daten müssen hinsichtlich ihrer Repräsentativität und Eignung bewertet werden. Das soll mittels statistisch-linguistischer Kennzahlen erfolgen. Da aktuell keine zufriedenstellenden deutschsprachigen Datensätze verfügbar sind, ist die Generierung eines deutschsprachigen Benchmark-Datensatzes für ein möglichst breites Spektrum an Anwendungsfällen vorgesehen. Die entwickelten Modelle werden umfassend validiert und bewertet. Die Bewertung umfasst neben technischen Kriterien wie Performance, Effizienz oder Ressourceneinsatz, auch rechtliche und ethische Faktoren. Das rechtliche und ethische Framework für personenbezogene Daten und Anonymisierungstechniken beim Einsatz von KI soll Metriken zur Bewertung der Qualität einer Anonymisierung beinhalten. Als Proof-of-Concept werden die besten Modelle in einen zu entwickelnden Demonstrator integriert. Als wesentliche Innovation des Projekts NERMAN wird erstmals ein NER-Modell entwickelt, das speziell für die Anwendung auf überwiegend deutschsprachige Chat- und E-Mail-Daten zugeschnitten ist. Eine weitere Neuheit von NERMAN ist die Erstellung von Datensätzen mit ähnlichen linguistischen Eigenschaften wie Chats und E-Mails und dabei speziell die Anwendung von LLMs für die Generierung synthetischer Daten. Erstmals sollen repräsentative, synthetische Testdatensätze, die komplett datenschutzkonform sind, für einen hochsensiblen Sektor wie die Sicherheitsverwaltung generiert und bereitgestellt werden. Schließlich sollen erstmals quantitative Kriterien erarbeitet werden, die eine möglichst zuverlässige Prüfung des Personenbezugs von Daten und der Qualität von Anonymisierungsvorgängen ermöglichen.

Details

Projektzeitraum 01.10.2025 - 31.03.2027
Fördergeber FFG
Förderprogramm
Department

Department für E-Governance in Wirtschaft und Verwaltung

Zentrum für E-Governance

Projekt­verantwortung (Universität für Weiterbildung Krems) Mag. Anna-Sophie Novak, LL.M.
Projekt­mitarbeit
Zum Anfang der Seite