Veröffentlicht am:
6.6.2022

Digitalisierung bedeutet, dass mehr Informationen über die Welt in digitaler Form wiedergegeben werden können, so dass sie mit den entwickelten Werkzeugen leicht ausgetauscht, analysiert und genutzt werden können, was uns grössere Einsichten, Effizienz und Potenziale ermöglicht.

Die Entwicklung der künstlichen Intelligenz (KI) ermöglicht es uns, die uns zur Verfügung stehenden Informationen wirklich zu nutzen. Wir nutzen KI tagtäglich, z. B. zur Übersetzung von Sprachen, zur Erstellung von Untertiteln in Videos oder zum Blockieren von E-Mail-Spam. KI erleichtert nicht nur unser Leben, sondern hilft uns auch, einige der grössten Herausforderungen der Welt zu lösen: von der Behandlung chronischer Krankheiten oder der Verringerung der Zahl der Verkehrstoten bis hin zur Bekämpfung des Klimawandels oder der Vorhersage von Bedrohungen der Cybersicherheit. Wie die Dampfmaschine oder die Elektrizität in der Vergangenheit verändert die KI unsere Welt, unsere Gesellschaft und unsere Industrie.

Die halsbrecherischen Fortschritte in der KI erfordern eine Neuausrichtung verschiedener Aspekte unseres Lebens und unseres Verständnisses von diesen. Ein bemerkenswerter Aspekt ist der Schutz persönlicher Daten.

Die Ausweitung der personenbezogenen Daten

Wenn wir uns die digitalisierte Welt ansehen, sind wir bei der Digitalisierung ziemlich weit vorne. Das bedeutet, dass sich vieles von dem, was in der realen Welt passiert, auf digitale Weise widerspiegelt: Unsere geschäftliche und die meisten unserer privaten Korrespondenzen werden direkt digital abgewickelt oder irgendwann digitalisiert, Informationen über unsere Aktivitäten werden nicht nur von Technologieunternehmen über unsere Online-Aktivitäten und unsere Smartphones feinkörnig verfolgt, sondern unsere sozialen und wirtschaftlichen Auswirkungen werden von Staaten und Unternehmen überwacht, damit sie sich ein Bild von der Welt machen können. Ein Großteil der Dienstleistungen, die wir in Anspruch nehmen, wäre ohne den Einsatz digitaler Werkzeuge, die digitale Informationen benötigen, um zu funktionieren, nicht möglich.

Vor diesem Hintergrund sind die Bedeutung personenbezogener Daten und die Risiken, die sich aus ihrem Missbrauch ergeben, deutlich geworden, was zur Entwicklung einer Kultur des Schutzes dieser personenbezogenen Daten geführt hat. Personenbezogene Daten sind im Prinzip alle Informationen, die sich auf eine bestimmte Person beziehen. Was genau unter diese Definition fällt, hängt, rechtlich gesehen, von den geltenden Vorschriften ab.

Nach der DSGVO, die hier allgemein als Bezugspunkt verwendet wird, umfassen personenbezogene Daten "nur" Informationen über natürliche Personen, die: direkt durch die betreffenden Informationen identifiziert werden können oder identifizierbar sind; oder die indirekt durch diese Informationen in Kombination mit anderen Informationen identifiziert werden können.

Einfache Indentifikatoren

Im Grunde genommen sind personenbezogene Daten Informationen, die allein die Identifizierung eines Individuums ermöglichen (Identifikator). Die traditionellste ist die Information über den vollständigen Namen einer Person. Diese Information ist heutzutage in vielen Fällen nicht mehr eindeutig genug, um eine bestimmte Person zu identifizieren, so dass der vollständige Name oft durch zusätzliche Informationen wie Geburtsdatum und/oder Wohnanschrift ergänzt wird.

Im Laufe der Zeit kamen weitere Identifikatoren als Mittel zur Identifizierung einer Person hinzu. Neben den offiziellen Identifikatoren wie der Sozialversicherungsnummer oder der Nummer des Personalausweises sind auch biometrische Identifikatoren wie Fingerabdrücke oder Gesichtsmerkmale sowie digitale Identifikatoren wie die IP-Adresse oder der Standort  hinzugekommen. Diese ermöglichen allein nicht die Identifizierung einer bestimmten Person auf herkömmliche Weise, können aber in Kombination mit anderen Informationen leicht mit der Person in Verbindung gebracht und zu Identifizierungszwecken verwendet werden. Je nach geltendem Recht werden personenbezogene Daten, die mit dieser Art von Identifikatoren verknüpft sind, in der Regel als pseudonymisierte personenbezogene Daten betrachtet, was bedeutet, dass der Identifikator leicht mit einer natürlichen Person in Verbindung gebracht werden kann, wenn die Verknüpfungsinformationen beschafft werden können.

Komplexe Identifikatoren

Mit der Entwicklung der Datenanalyse und der Anhäufung der verfügbaren Daten ist es einfacher geworden, Personen aus scheinbar nicht identifizierenden Informationen zu identifizieren. Es ist in der Tat möglich, verschiedene Datenpunkte zu kombinieren, die für sich genommen keinen Identifikator darstellen, aber wenn sie kombiniert werden, ermöglichen sie es, einzelne Personen und die mit ihnen verbundenen verfügbaren Daten herauszufiltern, so dass eine identifizierende Kombination mit einem einzigen indirekten Identifikator versehen werden könnte, was sie zu pseudonymisierten personenbezogenen Daten macht.  Wenn eine Kombination von physischen, physiologischen, genetischen, mentalen, wirtschaftlichen, kulturellen oder sozialen Identitätsfaktoren es erlaubt, ein Individuum zu identifizieren, werden diese Informationen und alle anderen Informationen, die mit diesem Individuum verbunden sind, gemäss der EU-Verordnung als personenbezogene Daten betrachtet. Diese Tatsache erweitert das Spektrum der Informationen, die potenziell als indirekter Identifikator betrachtet werden können, und macht sie von der Verfügbarkeit anderer Daten abhängig. Je mehr Daten zur Verfügung stehen (d. h. bereits vorhanden oder über Dritte zugänglich sind) und je mehr sich unsere Fähigkeit zur Analyse von Informationen entwickelt, desto mehr Arten von Informationen können als potenziell identifizierende Informationen betrachtet werden.

Verbundene Daten

Personenbezogene Daten beschränken sich jedoch nicht nur auf Identifikatoren, seien sie direkt oder indirekt, sondern umfassen auch alle Informationen, die sich bei ihrer Verwendung auf eine Person beziehen. Jede Information, die jemand sinnvollerweise mit einer Kennung verbindet (sei diese Kennung direkt oder indirekt), stellt je nach Art und Zweck ihrer Verwendung personenbezogene Daten dar.

Das bedeutet, dass bei der Arbeit mit Daten personenbezogene Daten auftauchen können, die sich auf alle damit verbundenen Daten auswirken. Es ist daher wichtig, ein solides Verständnis der grundlegenden Massnahmen zu haben, die bei der Arbeit mit personenbezogenen Daten erforderlich sind, auch wenn die Absicht nicht darauf gerichtet ist.

Die Verwendung von (personenbezogenen) Daten

Daten als digitale Darstellung unserer Welt werden überall für (fast) jede Tätigkeit verwendet. Für jemanden, der Daten nutzt, würde eine ideale Welt den offenen Zugang zu allen verfügbaren Informationen ermöglichen, um die unternommene Tätigkeit weiter voranzubringen. Es besteht daher ein Spannungsverhältnis zwischen den Interessen der Personen, von denen die Daten stammen oder die eine Verbindung zu einigen Daten haben, und denen derjenigen, die diese Daten benötigen und/oder nutzen wollen.

Dieses Spannungsfeld ist nicht nur auf Einzelpersonen beschränkt, sondern kann auch bei Informationen über Unternehmen, zivilgesellschaftliche Gruppen, Bevölkerungsgruppen und staatliche Stellen spürbar werden. Die Diskussion über die bestehende Regulierung des Datenflusses konzentriert sich jedoch zumeist auf personenbezogene Daten, und diese Diskussion ist besonders bei Themen wie Cybersicherheit, medizinische Forschung und Werbung von Bedeutung.  

Medizinische Forschung als Beispiel

Daten, die sich auf Personen beziehen oder von diesen erhoben werden, sind zum Zeitpunkt der Erhebung personenbezogen. Im medizinischen Bereich werden personenbezogene Daten in erster Linie erhoben, um den Gesundheitszustand einer Person zu verfolgen und die notwendige Pflege zu gewährleisten. Gesundheitsdaten sind jedoch auch für den Fortschritt der medizinischen Wissenschaft wertvoll, und es besteht daher ein grosses Interesse daran, sie für wissenschaftliche Zwecke zugänglich zu machen. Sie werden u. a. immer häufiger zum Trainieren von KI-Algorithmen verwendet, die dann im Gesundheitswesen eingesetzt werden.

Nach der Datenschutz-Grundverordnung und anderen Rechtsvorschriften wie dem US-amerikanischen HIPAA gelten Gesundheitsdaten als hochsensibel, und die Verwendung von Gesundheitsdaten für andere Zwecke als die unmittelbare Versorgung des Patienten unterliegt strengen Anforderungen, wie etwa der Einholung einer freien und informierten Zustimmung. Wenn dies nicht der Fall ist, gelten andere, ähnlich strenge Bedingungen für ihre Verwendung. Dies ist oft nicht praktikabel, weil die Einholung der erforderlichen Zustimmung schwierig und zeitaufwändig ist, weil die künftige wissenschaftliche Verwendung nicht im Voraus bestimmt werden kann (und die Einholung einer Einwilligung nach Aufklärung daher unmöglich ist) und weil die Daten in der Regel zwischen verschiedenen Rechtsordnungen übertragbar sein müssen, die jeweils unterschiedliche und einander widersprechende Vorschriften haben.

Die Lösung bestand häufig darin, die Daten zu anonymisieren, damit sie frei weitergegeben werden können, da sie auf diese Weise nicht in den Anwendungsbereich der Datenschutzvorschriften fallen. Dies ermöglichte die gemeinsame Nutzung zahlreicher Informationen, die die Forschung in verschiedenen Bereichen unterstützen.

Mit der zunehmenden Bedeutung des Datenschutzes und des Analysepotenzials werden jedoch die Informationen, die offengelegt werden können, ohne potenziell personenbezogene Daten (d. h. Informationen, die nicht mit bestimmten Personen in Verbindung gebracht werden können) offenzulegen, immer kleiner.  

Die künstliche Intelligenz trägt zu dieser Problematik bei, indem sie den Prozess der Re-Identifizierung erleichtert und somit die Anonymisierungstechniken immer ausgefeilter werden müssen, was zu einer weiteren Verringerung der nützlichen Informationen führt, die in anonymisierter Form weitergegeben werden können.

Dieser Trend steht im Gegensatz zu dem Bedürfnis der Forscher, Zugang zu Daten zu erhalten. Selbst wenn man die invasivste explorative Datenanalyse ausser Acht lässt (bei der versucht wird, Korrelationen innerhalb von Datensätzen mit der grösstmöglichen Menge an verfügbaren Informationen zu ermitteln, um Lösungen für ein noch zu bestimmendes Problem zu finden), ist es unmöglich, den technologischen Fortschritt und alle möglichen Analysetechniken und Datenkombinationen vorherzusehen, die an einem veröffentlichten Datensatz durchgeführt werden könnten. Es ist daher sehr schwierig, ein Anonymisierungsverfahren zu bestimmen, das das Risiko einer erneuten Identifizierung akzeptabel macht.

Da bei der Anonymisierung versucht wird, alle potenziell direkten und indirekten Identifikatoren aus einem bestimmten Datensatz zu entfernen oder unkenntlich zu machen, werden die darin enthaltenen Informationen umso weniger, je mehr der Datensatz sicher anonymisiert ist, so dass er für Forschungszwecke immer weniger nützlich wird.

Darüber hinaus besteht grosse Unsicherheit darüber, was genau unter anonymisierten Daten zu verstehen ist und ob dieser Ansatz als Weitergabe anonymisierter oder pseudonymisierter personenbezogener Daten zu betrachten ist. Dies hat weitreichende Folgen, da davon abhängt, ob die Zustimmung der betroffenen Person zur Weitergabe der Informationen auf diese Weise erforderlich ist.

Massnahmen zum Schutz personenbezogenen Daten

Wir sind an einem Punkt angelangt, an dem die Veröffentlichung wirklich anonymisierter Datensätze, die aus personenbezogenen Daten stammen, entweder unmöglich, zu schwierig oder nutzlos wird. Die Lösung besteht daher häufig darin, neben einer Form der Pseudonymisierung oder Anonymisierung personenbezogener Daten zusätzliche Schutzmassnahmen zu ergreifen, z. B. die Kontrolle darüber, wer auf die Daten zugreifen kann, und die Verpflichtung der zugreifenden Partei, Sicherheitsvorkehrungen für den Schutz der gemeinsam genutzten Daten zu treffen.

Dieser Ansatz bietet anerkanntermassen mehr Freiheit bei der Weitergabe von Informationen zu Forschungszwecken, was jedoch die Möglichkeit zur Durchführung von Forschungsarbeiten auf Einrichtungen beschränkt, die diese zusätzlichen Anforderungen erfüllen können.

Ein anderer Ansatz, der derzeit entwickelt wird, ist die Erzeugung synthetischer Daten mit Hilfe von KI. Ein KI-Algorithmus wird auf Daten aus der realen Welt trainiert und dann verwendet, um realistische Daten zu erzeugen, die jedoch nicht mit einer realen Person verbunden sind. Diese Daten können stellvertretend für die reale Situation verwendet werden, um vielversprechende Forschungsrichtungen zu ermitteln, ohne dass Datenschutzbestimmungen eingehalten werden müssen. Dies reduziert den Zeit- und Kostenaufwand für die Erforschung spekulativer Hypothesen und ermöglicht eine unkomplizierte Erkundung der Forschungsrichtung.

Fazit

Es gibt immer noch verschiedene Hürden, wenn man versucht, personenbezogene Daten zu verwenden, aber ein guter Data-Governance-Rahmen, der Verschlüsselungs-, Anonymisierungs- und Pseudonymisierungstechniken, Zugangskontrollen und vertragliche Verpflichtungen einsetzt, ermöglicht es, die Persönlichkeit der Personen, von denen die Daten stammen, zu respektieren und gleichzeitig den größten Wert aus ihnen zu ziehen.