TY - GEN T1 - Prüfung der Validität komplexer Analysen mit synthetisierten Krebsregisterdaten AU - Fraunhofer Institut für Algorithmen und wissenschaftliches Rechnen (SCAI) AB - Ziel des Forschungsvorhabens ist es, publizierte Analysen der Krebsregisterdaten zum Glioblastom* mit synthetisierten Daten zu replizieren. Zweck des Forschungsvorhabens ist eine mögliche Nutzung von synthetisierten Daten in Situationen, wo eine Weitergabe von Mikrodaten (hier: Krebsregisterdaten) aus datenschutzrechtlichen Erwägungen heraus nicht oder nur unter besonderen Bedingungen erlaubt ist. Synthetisierte Daten könnten Datennutzern zur Verfügung gestellt werden, um Auswertungsskripte vorzubereiten, und darüber eine Auswertung in der datenhaltenden Stelle (z.B. dem ZfKD) zu ermöglichen, ohne Weitergabe der Originaldaten. Dabei wäre für komplexe Analysen eine Voraussetzung, dass die synthetisierten Daten wesentliche statistische Eigenschaften der Originaldaten besitzen, um z.B. eine Vorabprüfung von Modellannahmen zu erlauben. Die Generierung der synthetischen Daten erfolgt mittels eines generativen KI-Verfahrens, dass bereits mit klinischen Daten erfolgreich angewandt wurde: https://www.frontiersin.org/articles/10.3389/fdata.2020.00016/full Dieses Verfahren basiert auf der Theorie Bayes'scher Netze, welche wiederum eine spezielle Klasse probabilistischer graphischer Modelle darstellen. Bayes'sche Netze und unser darauf aufbauendes, Variational Autoencoder Modular Bayesian Network (VAMBN), genanntes Verfahren lernen die den Originaldaten zugrunde liegende multivariate statistische Verteilung. Dabei ist festzuhalten, dass die gelernte Verteilung im allgemeinen nicht repräsentativ für die Gesamtbevölkerung ist, sondern nur für den vorliegenden Datensatz. Durch zufälliges Ziehen aus der gelernten Verteilung werden synthetische Subjekte erzeugt, welche statistisch den originalen Patientendaten ähneln, diesen jedoch nicht genau entsprechen. *Efremov et al., Journal of Cancer Research and Clinical Oncology (2021) 147:3381–3390. doi: 10.1007/s00432-021-03596-5. KW - bevölkerungsbezogen KW - Krebsregisterdaten KW - synthetische Daten KW - künstliche Intelligenz KW - 610 Medizin und Gesundheit PY - 2022 LA - ger PB - Robert Koch-Institut DO - 10.25646/9790 ER -