Prüfung der Validität komplexer Analysen mit synthetisierten Krebsregisterdaten

Fraunhofer Institut für Algorithmen und wissenschaftliches Rechnen (SCAI)

2022Studienarbeit

dc.contributor.author	Fraunhofer Institut für Algorithmen und wissenschaftliches Rechnen (SCAI)
dc.date.accessioned	2022-03-10T08:55:04Z
dc.date.available	2022-03-10T08:55:04Z
dc.date.issued	2022	none
dc.identifier.uri	http://edoc.rki.de/176904/9479
dc.description.abstract	Ziel des Forschungsvorhabens ist es, publizierte Analysen der Krebsregisterdaten zum Glioblastom* mit synthetisierten Daten zu replizieren. Zweck des Forschungsvorhabens ist eine mögliche Nutzung von synthetisierten Daten in Situationen, wo eine Weitergabe von Mikrodaten (hier: Krebsregisterdaten) aus datenschutzrechtlichen Erwägungen heraus nicht oder nur unter besonderen Bedingungen erlaubt ist. Synthetisierte Daten könnten Datennutzern zur Verfügung gestellt werden, um Auswertungsskripte vorzubereiten, und darüber eine Auswertung in der datenhaltenden Stelle (z.B. dem ZfKD) zu ermöglichen, ohne Weitergabe der Originaldaten. Dabei wäre für komplexe Analysen eine Voraussetzung, dass die synthetisierten Daten wesentliche statistische Eigenschaften der Originaldaten besitzen, um z.B. eine Vorabprüfung von Modellannahmen zu erlauben. Die Generierung der synthetischen Daten erfolgt mittels eines generativen KI-Verfahrens, dass bereits mit klinischen Daten erfolgreich angewandt wurde: https://www.frontiersin.org/articles/10.3389/fdata.2020.00016/full Dieses Verfahren basiert auf der Theorie Bayes'scher Netze, welche wiederum eine spezielle Klasse probabilistischer graphischer Modelle darstellen. Bayes'sche Netze und unser darauf aufbauendes, Variational Autoencoder Modular Bayesian Network (VAMBN), genanntes Verfahren lernen die den Originaldaten zugrunde liegende multivariate statistische Verteilung. Dabei ist festzuhalten, dass die gelernte Verteilung im allgemeinen nicht repräsentativ für die Gesamtbevölkerung ist, sondern nur für den vorliegenden Datensatz. Durch zufälliges Ziehen aus der gelernten Verteilung werden synthetische Subjekte erzeugt, welche statistisch den originalen Patientendaten ähneln, diesen jedoch nicht genau entsprechen. *Efremov et al., Journal of Cancer Research and Clinical Oncology (2021) 147:3381–3390. doi: 10.1007/s00432-021-03596-5.	ger
dc.language.iso	ger	none
dc.publisher	Robert Koch-Institut
dc.subject	bevölkerungsbezogen	ger
dc.subject	Krebsregisterdaten	ger
dc.subject	synthetische Daten	ger
dc.subject	künstliche Intelligenz	ger
dc.subject.ddc	610 Medizin und Gesundheit	none
dc.title	Prüfung der Validität komplexer Analysen mit synthetisierten Krebsregisterdaten	none
dc.type	StudyThesis
dc.identifier.urn	urn:nbn:de:0257-176904/9479-4
dc.identifier.doi	10.25646/9790
local.edoc.type-name	Studienarbeit
local.edoc.university	Fraunhofer Institut für Algorithmen und wissenschaftliches Rechnen (SCAI), Schloss Birlinghoven, 53757 Sankt Augustin	none

Zur Kurzanzeige