Projekt PriSyn macht Medizindaten sicher nutzbar

Gruppenfoto Projektteam — Quelle: Ebelshäuser/CISPA.

Bei der Entwicklung moderner Medikamente und Behandlungsmethoden spielen Gesundheitsdaten wie Blutbild, Geninformationen oder MRT-Befunde von Studienteilnehmer:innen eine entscheidende Rolle. Gleichzeitig sind genau diese Daten aber auch hochsensibel. Sie genießen daher besonderen Schutz und dürfen nur eingeschränkt in einem streng kontrollierten Ausmaß genutzt und weitergegeben werden. Das neue Projekt PriSyn (repräsentative, synthetische Gesundheitsdaten mit starken Privatsphäregarantien) entwickelt eine innovative Methode, die deutlich mehr medizinische Daten als bisher nutzen kann – und gleichzeitig ihren Schutz und die Privatsphäre der Studienteilnehmer:innen garantiert. Beteiligt sind das CISPA Helmholtz-Zentrum für Informationssicherheit, das DZNE, das Saarbrücker Startup QuantPi und das IT-Technikunternehmen Hewlett Packard Enterprise (HPE). Das BMBF fördert das dreijährige Projekt mit 2,2 Millionen Euro.

Forschende können heute schon biomedizinische Daten aus verschiedenen Bereichen kombinieren und diese komplexen Datensätze mithilfe von Methoden des maschinellen Lernens analysieren. Allerdings ist es in der Praxis derzeit noch enorm schwierig, Gesundheitsdaten von verschiedenen Stellen – zum Beispiel verschiedenen Kliniken, teilweise sogar aus unterschiedlichen Ländern – zusammenzuführen und dabei ihren Schutz zu garantieren.

Zwar gibt es auch heute schon Möglichkeiten, die Daten vor der Weitergabe zu anonymisieren. Mithilfe von Mechanismen der sogenannten Differential Privacy (deutsch: differenzielle Privatsphäre) können hierbei starke Garantien über den Schutz der Privatsphäre abgegeben werden. „Das bedeutet, dass Algorithmen und Analysen gezielt verrauscht werden, so dass durch die entstehende Unschärfe keine Rückschlüsse mehr auf die Patientendaten möglich sind“, erklärt CISPA-Forscher Prof. Dr. Mario Fritz. „Wichtig ist, dass die Datenverarbeitung unter diesem Rauschen trotzdem noch ihren wissenschaftlichen und medizinischen Nutzen behält.“ Bei der Datenanalyse sorgt der Einsatz solcher Mechanismen zum Schutz der Privatsphäre allerdings noch für größere Herausforderungen: „Es müssen dafür spezielle Algorithmen eingesetzt werden und eine Art Buchführung über jeden Zugriff auf die Daten geführt werden. In die bestehenden Arbeitsabläufe von Forschenden lässt sich das schwer einbinden“, sagt Fritz.

Die Lösung für diese Probleme könnten synthetische Daten mit starken Privatsphäregarantien (differential privacy) sein. Herstellen lassen sie sich mithilfe von generativen Machine-Learning-Modellen. „Die unter differentieller Privatsphäre trainierte KI erstellt somit künstliche Daten, die die statistischen Eigenschaften echter Datensätze wiedergeben. Gleichzeitig können wir Garantien abgeben, dass auch beim Teilen oder mehrfachen Zugriff auf diese Daten keine Privatsphärenrisiken für die Patienten entstehen“, erklärt Fritz. Er koordiniert das Projekt von Seiten des CISPA und treibt die Forschung an vertrauenswürdigen generativen Modellen voran. Unterstützt wird er von CISPA-Faculty Dr. Yang Zhang, der die Sicherheit der Modelle auf Herz und Nieren prüfen wird.

Sicherheit und Vertrauenswürdigkeit der Modelle sind aber nur eine Hälfte der Gleichung. Um überhaupt zu funktionierenden Modellen zu kommen, brauchen die Forschenden jede Menge Daten. Damit werden die Modelle für ihre Aufgaben trainiert. Geeignete Datensätze für den jeweils untersuchten biomedizinischen Anwendungsfall zu erstellen, übernimmt das DZNE. „Wir wollen versuchsweise DZNE-Studienkohorten nutzen, um klinische Assistenzsysteme für neurodegenerative Erkrankungen zu entwickeln und deren Leistung mit Systemen vergleichen, die mit synthetischen Daten trainiert wurden. Dank der synthetischen Daten werden dabei die Patientendaten natürlich nie veröffentlicht oder weitergegeben", sagt Dr. Matthias Becker, der gemeinsam mit Dr. Maren Büttner am DZNE an dem Projekt arbeitet.

Die Qualität der künstlichen Daten für den jeweiligen Anwendungsfall messbar zu machen, ist die Aufgabe des Saarbrücker Startups QuantPi. Mitbegründer und Forschungsleiter Dr. Antoine Gautier sagt: „Es wird noch daran geforscht, wie die Qualität synthetischer Daten und ihrer Generatoren sichergestellt werden kann. Eine solche Prüfung steht aber in engem Zusammenhang mit der Bewertung der Risiken für die Vertrauenswürdigkeit von KI-basierten Systemen – eine Kernfunktion der QuantPi-Plattform. Daher wird QuantPi geeignete Maße und Messverfahren identifizieren, mit denen der nötige Kompromiss zwischen dem Schutz der Privatsphäre und der Nutzbarkeit der Daten genau analysiert und auch kontrolliert werden kann. Darüber hinaus sollten die Maße die Risiken der Vertrauenswürdigkeit im Hinblick auf potenzielle Datenqualitätsprobleme, Verzerrungen und Diskriminierung in den synthetischen Daten widerspiegeln. Die Hochdimensionalität der biologischen Daten und die intransparente Generierung der Daten stellen eine zusätzliche Herausforderung bei der Bewertung der Nutzbarkeit der synthetischen Daten dar."

Doch die beste Forschung nützt nichts, wenn sie in der Praxis nicht anwendbar ist. Um auch das sicherzustellen, wird sich der IT-Riese Hewlett Packard Enterprise (HPE) darauf konzentrieren, dass die Modelle in effizient einsetzbare und für die Nutzer:innen gut verständliche Hardware fließen. „Um eine breite Akzeptanz bei den Ärzten zu erreichen, müssen die lokale Software und Hardware drei Schlüsselkriterien erfüllen: Effizienz der Implementierung, Benutzerfreundlichkeit und Ende-zu-Ende-Sicherheit. Eine weitere wichtige Priorität ist die Plattformunabhängigkeit, um ein wirklich offenes Ökosystem souveräner Datenbesitzer zu ermöglichen", sagt Hartmut Schultze, Lead Architect, HPE.

Mario Fritz sieht ein großes Interesse am Einsatz generativer Modelle in der Biomedizin. „Wir wollen mit diesem Projekt die bestehenden Potenziale von Gesundheitsdaten besser nutzbar machen.“