Einführung

KI-Tools basieren grundsätzlich auf einem KI-Modell. Das ist ein Algorithmus, der aus Daten lernt, um die Antwort auf die Frage zu geben, für die er entwickelt wurde. Es hört sich kompliziert an, aber es lässt sich zusammenfassen als ein vorgefertigtes Stück Software (neuronales Netzwerk oder eine andere Art von maschinellem Lernen, oft leicht im Internet verfügbar), allgemein als "Algorithmus" bezeichnet, das mit verfügbaren Daten trainiert oder kalibriert wird, um die Frage zu beantworten, auf die es trainiert wurde. Abhängig von den verfügbaren Daten ist es möglich, Einblicke in versteckte Muster zu erhalten, Situationen vorherzusagen, eine intelligente Umgebung zu schaffen, die in der Lage ist, ihre Umgebung wahrzunehmen und darauf zu reagieren, oder Arbeitsabläufe durch die Automatisierung von Standardaufgaben zu unterstützen. All dies erfordert einige Vorüberlegungen zu den Daten, die für die Implementierung von KI-Tools verwendet werden sollen.

- Werden personenbezogene Daten rechtmässig erhoben?
- Werden personenbezogene Daten für eine automatisierte Entscheidung oder Profiling verwendet?
- Haben Sie eine Strategie zum Besitz der Daten?
- Haben Sie die Daten, die Sie benötigen?
- Sind die Daten repräsentativ für Ihren Anwendungsfall (Qualität der Daten)?

Rechtliche Überlegungen

Schutz der persönlichen Daten

KI-Tools und "Big Data" (die grosse Menge an Informationen, die heute gesammelt werden können) haben einen regulatorischen Backlash ausgelöst, der auf den Schutz persönlicher Daten abzielt. Die Verwendung und Sammlung von persönlichen Informationen sind unter anderem in Europa und der Schweiz streng geregelt und diese Standards haben Auswirkungen auf die ganze Welt.

Wann Informationen als persönlich gelten, variiert von Situation zu Situation. Wenn ein Unternehmen über Daten verfügt, die es ohne unangemessenen Aufwand erlauben, die Daten einer Person zuzuordnen, oder diese Daten gesammelt oder verarbeitet werden, um sie einer bestimmten Person zuzuordnen, dann handelt es sich um personenbezogene Daten.[1]

Bei der Erhebung von Daten, die personenbezogene Informationen darstellen, ist darauf zu achten, dass diese Informationen rechtmässig erhoben werden. Dies bedeutet in der Regel, dass die Person, von der die Daten erhoben werden, ihre ausdrückliche Einwilligung geben sollte, bevor die Daten erhoben werden. In bestimmten Fällen besteht die Möglichkeit, personenbezogene Daten ohne ausdrückliche Einwilligung zu erheben und zu nutzen, wenn eine gesetzliche Regelung dies zulässt (z. B. die Erhebung und Nutzung der Daten des Vertragspartners zum Zwecke der Vertragserfüllung). Da diese Daten aber in der Regel auch für Marketingzwecke verwendet werden, ist für diesen zusätzlichen Zweck oft eine ausdrückliche Einwilligung erforderlich. Auch in Situationen, in denen die ausdrückliche Einwilligung nicht erforderlich ist, stellt ihre Erhebung eine Best Practice dar.

Die Verwendung der gesammelten Informationen muss ebenfalls legal sein. Das bedeutet, dass die geforderte ausdrückliche Einwilligung auch informiert sein muss. Informierte Einwilligung bedeutet, dass die Person mit der Art der gesammelten Informationen und der Verwendung der gesammelten Daten einverstanden sein muss. Es muss also im Vorfeld detailliert beschrieben werden, wie die persönlichen Informationen verwendet werden sollen. Auch wenn diese Daten dann anonymisiert werden und somit im Nachhinein keine personenbezogenen Daten mehr darstellen, muss die Person informiert werden, um sicherstellen zu können, dass die richtigen Daten erhoben wurden und um kontrollieren zu können, ob die Daten korrekt behandelt werden (z.B. gelöscht werden, wenn sie nicht mehr benötigt werden).

Wenn personenbezogene Daten verwendet werden, um einen Dienst zu personalisieren oder einen personalisierten Vorschlag zu machen, dann muss das Ergebnis der Ausarbeitung, das eine "subjektive Information" über eine Person darstellt, dem Betroffenen zugänglich gemacht werden, da es sich immer noch um personenbezogene Daten handelt.[2]

Wenn personenbezogene Daten für die Durchführung einer automatisierten Entscheidung oder eines Profilings verwendet werden, die relevanten Auswirkungen auf die betroffene Person haben (z.B. Kreditwürdigkeitsprüfung, Bonus, Einstellung und Beförderung, Zugang zu Gruppen oder Standorten usw.), muss daran erinnert werden, dass diese Person das Recht hat, Widerspruch einzulegen und eine Überprüfung durch einen Menschen zu verlangen.

Intellektuelles Eigentum

Grundsätzlich wird das geistige Eigentum an Algorithmen, die für die Erstellung von Modellen verwendet werden, international durch die Berner Konvention gewährt (da es sich um ein "literarisches" Werk handelt) und durch die damit verbundenen Lizenzen geregelt.

Die Rohdaten, die zum Trainieren des Modells geliefert werden, sind dagegen in der Regel nicht durch geistiges Eigentum geschützt, es sei denn, sie haben bereits einen gewissen Schutz als literarisches oder künstlerisches Werk (wie literarische Texte, Nachrichtenartikel und künstlerische Bilder). Derzeit gibt es eine Debatte über die Frage, ob ein spezieller Schutz für Datensammlungen geschaffen werden sollte, die für das Training von Algorithmen verwendet werden können. Die vorherrschende Meinung ist im Moment, dass andere bestehende rechtliche Schutzmöglichkeiten, wie z. B. Regeln zum Schutz vertraulicher Informationen und Wettbewerbsregeln oder vertragliche Vereinbarungen, einen ausreichenden rechtlichen Schutz für diese Art von Daten bieten.[3]

Das Produkt eines KI-Algorithmus ist auch von geistigen Schutzrechten ausgeschlossen, was bei von KI produzierten Produkten wie Bildern, Audios und Texten, die mit von Menschen gemachten Werken vergleichbar sind, umstritten ist. Dies liegt daran, dass der Schutz in der Regel für "originelle" (nicht offensichtliche) Arbeiten gewährt wird, und Originalität nur bei menschlicher Tätigkeit als ableitbar gilt.[4]

Technische Überlegungen

Zunächst einmal: Aufbereitung der Trainingsdaten. Dazu gehören verschiedene Schritte, die es ermöglichen, die gewünschten Ergebnisse zu erzielen. Entscheidend ist die Überprüfung der Datenverfügbarkeit: die Daten müssen in einem für den Algorithmus verständlichen Format (z.B. elektronische Texte, Bilder und Zahlen) sowie in ausreichender Menge vorliegen. Sollte dies noch nicht der Fall sein, ist es dank spezialisierter Anbieter möglich, vorhandene Informationen massenhaft zu digitalisieren. Wichtig ist, dass diese Digitalisierung der Daten mit der Digitalisierung der Arbeitsabläufe gekoppelt wird, damit in Zukunft nicht die gleiche Übung durchlaufen werden muss. Aufgrund der Welle an Home-Office-Bedingungen ist zumindest die grundlegendste Digitalisierung der Arbeit von allen durchgeführt worden.

Wie viele Informationen notwendig sind, damit eine Implementierung von KI-Tools sinnvoll ist, ist von Fall zu Fall unterschiedlich. Es gibt viele vorgefertigte Lösungen, so dass es bereits Modelle gibt, die so trainiert sind, dass sie mit wenigen oder gar keinen Daten umgesetzt werden können. Dies gilt insbesondere für grundlegende Automatisierungslösungen wie die Informationsextraktion aus Standarddokumenten und -formularen. Viele Unternehmen, die Algorithmen anbieten, bieten auch eine Beratung zu den verfügbaren Optionen und Werkzeugen auf Basis der vorhandenen Daten an.

Ein weiterer Aspekt, den es zu beachten gilt, ist die Qualität der Daten: es muss in der Tat sichergestellt werden, dass die Trainingsdaten vielfältig genug sind, damit sie die vorgesehene Verwendung widerspiegeln. Wenn nur ein bestimmter Teil der Anwendungsfälle als Trainingsdaten verwendet wurde, werden die Ergebnisse durch das, was auf diese Teilmenge zutrifft, verzerrt sein. Es kann z.B. sinnvoll sein, den Algorithmus so zu strukturieren, dass er eine transparente Sicht auf die Kriterien bietet, die für das Erreichen einer Schlussfolgerung verwendet werden. Dies hilft dabei, eventuelle Fehler in den bereitgestellten Daten zu erkennen und zu beheben.

Schliesslich sind unabhängige Anbieter (wie IBM und LatticeFlow) aufgetaucht, die Dienstleistungen im Zusammenhang mit der Überprüfung und Auditierung eines KI-Tools anbieten, wodurch eine bessere Transparenz und Zuverlässigkeit erreicht wird. Dank der Verbesserung der Technologie ist es möglich, mehr und mehr Licht in das zu bringen, was früher eine "Black Box" war.

[1] David Rosenthal, Das neue Datenschutzgesetz, in: Jusletter 16. November 2020, N.19; Whereas 26 of REGULATION (EU) 2016/679 (GDPR).

[2] Opinion 4/2007 on the concept of personal data, p. 9 ss.

[3] At European level it must be noticed the existence of the Database Directive, which gives copyright protection to naturals person for database structures created (e.g., the structure of relational databases as intellectual creation), but not their content.

[4] Daniel Gervais, Exploring the Interfaces Between Big Data and Intellectual Property Law, 10 (2019), JIPITEC 3 para 21.