Introduction

Les outils d’IA sont fondamentalement basés sur un modèle IA, qui est un algorithme qui apprend à partir de données pour donner la réponse à la question pour laquelle il est conçu. Cela semble compliqué, mais on peut le résumer comme un logiciel préconçu (neural network ou autre type d'apprentissage automatique, souvent facilement disponible sur Internet), communément appelé "algorithme", qui est entrainé ou calibré avec les données disponibles afin de répondre à la question sur laquelle il a été entrainé. En fonction des données disponibles, il est possible d'obtenir des informations sur des structures cachées, de prévoir des situations, de créer un environnement intelligent capable de détecter et d'agir sur son environnement, ou de soutenir des flux de travail en automatisant des tâches standard. Tout cela nécessite une réflexion préalable sur les données qui seront utilisées pour la mise en œuvre des outils IA.

- Les informations personnelles sont-elles collectées légalement ?
- Les informations personnelles sont-elles utilisées pour une décision automatisée ou un profilage ?
- Avez-vous une stratégie sur la propriété des données ?
- Disposez-vous des données dont vous avez besoin ?
- Les données sont-elles représentatives de votre cas d'utilisation (qualité des données) ?

Considérations juridiques

Protection des données

Les outils IA et les "Big Data" (la grande quantité d'informations qu'il est aujourd'hui possible de collecter) ont provoqué une réaction réglementaire visant à protéger les informations personnelles. L'utilisation et la collecte d'informations personnelles sont strictement réglementées, entre autres en Europe et en Suisse, et ces normes ont des répercussions dans le monde entier.

Quand une information est considérée comme personnelles varie d'une situation à l'autre. Lorsqu'une entreprise dispose de données qui lui permettent sans effort déraisonnable d'associer les données à une personne, ou que ces données sont collectées ou traitées afin de les associer à une personne spécifique, il s'agit alors d'informations personnelles.[1]

Lorsqu'une entreprise recueille des données qui constituent des informations personnelles, elle doit s'assurer que ces informations sont recueillies légalement. Cela signifie généralement que la personne auprès de laquelle les données sont collectées doit donner son consentement explicite et éclairé avant que les données ne soient collectées. Dans des cas spécifiques, il est possible de collecter et d'utiliser des données à caractère personnel sans consentement explicite et éclairé, si une disposition légale le permet (comme la collecte et l'utilisation des données de la partie contractante aux fins de l'exécution d'un contrat). Toutefois, comme ces données sont généralement utilisées à des fins de marketing, un consentement explicite est souvent nécessaire pour cette finalité supplémentaire. Même dans les situations où le consentement explicite n'est pas requis, la collecte de celui-ci constitue best practice.

L'utilisation des informations collectées doit également être légale. Cela signifie que le consentement explicite requis doit également être éclairé. Le consentement éclairé signifie que la personne doit accepter le type d'informations collectées et l'utilisation des données collectées. Il doit donc être décrit à l'avance de manière relativement détaillée, comment les informations personnelles seront utilisées. Même si ces données sont ensuite rendues anonymes, et ne constitueront donc plus des informations personnelles par la suite, la personne doit être informée afin de pouvoir s'assurer que les données correctes ont été collectées et de pouvoir contrôler si les données ont été correctement traitées (par exemple, supprimées lorsqu'elles ne sont plus nécessaires).

Lorsque des données à caractère personnel sont utilisées pour personnaliser un service ou faire des suggestions personnalisées, le résultat de l'élaboration, qui constitue une "information subjective" sur une personne, doit être rendu accessible à la personne concernée, puisqu'il s'agit toujours d'informations personnelles.[2]

En outre, si des données à caractère personnel sont utilisées pour l'exécution d'une décision automatisée ou d'un profilage qui a des effets pertinents pour la personne concernée (par exemple, notation de crédit, bonus, emploi et promotion, accès à des groupes ou à des lieux, etc.), il faut rappeler que la personne a le droit de s'opposer et de demander une révision par un être humain.

Propriété intellectuelle

En principe, la propriété intellectuelle sur les algorithmes utilisés pour la création de modèles est accordée au niveau international par la Convention de Berne (car elle constitue une œuvre "littéraire") et est régie par les licences qui y sont attachées.

En revanche, les données brutes fournies pour former le modèle ne sont généralement pas protégées par la propriété intellectuelle, sauf si elles bénéficient déjà d'une certaine protection en tant qu'œuvre littérale ou artistique (comme les textes littéraires, les articles de presse et les images artistiques). Un débat est actuellement en cours sur la question de savoir si une protection spécifique doit être créée pour la collecte de données pouvant être utilisées pour la formation des algorithmes. L'idée dominante, pour l'instant, est que d'autres options de protection juridique existantes, telles que les règles de protection des informations confidentielles et les règles de concurrence, ou les accords contractuels, accordent une protection juridique suffisante à ce type de données.[3]

Le produit d'un algorithme d'IA est également exclu des droits de protection intellectuelle, ce qui est controversé pour les produits tels que les images, le son et les textes produits par l'IA qui sont comparables aux travaux effectués par les humains. En effet, la protection est généralement accordée aux œuvres "originales" (non évidentes), et l'originalité est considérée comme ne pouvant être dérivée que de l'activité humaine.[4]

Considérations techniques

Tout d'abord : préparer les données d’entrainement. Cela implique différentes étapes qui permettront d'obtenir avec succès les résultats souhaités. Il est essentiel de vérifier que les données sont disponibles : les données doivent être disponibles dans un format que l'algorithme peut comprendre (comme des textes électroniques, des images et des chiffres), ainsi qu'en quantité suffisante. Si elles ne sont pas encore disponibles, il est possible de numériser en masse les informations existantes grâce à des fournisseurs spécialisés. Il est important que cette numérisation des données soit couplée à la numérisation du flux de  travail, afin qu'il ne soit pas nécessaire à l'avenir de se livrer au même exercice. En raison de la vague de travail à domicile, la numérisation la plus élémentaire du travail a été effectuée par tout le monde.

Le nombre d'informations nécessaires à la mise en œuvre des outils IA pour être utile varie d'un cas à l'autre. De nombreuses solutions préfabriquées ont été créées, de sorte qu'il existe déjà des modèles entrainées de telle sorte qu'ils peuvent être mis en œuvre avec peu ou pas de données disponibles. C'est notamment le cas des solutions d'automatisation de base telles que l'extraction d'informations à partir de documents et de formulaires standard. De nombreuses entreprises fournissant des algorithmes proposent également une consultation sur les options et les outils disponibles sur la base des données disponibles.

Autre aspect à considérer est que la qualité des données doit être revue : il faut en effet s'assurer que les données d’entrainement sont suffisamment diversifié pour qu'elles reflètent l'utilisation envisagée. Si seule une partie des cas d'utilisation a été utilisée comme données d’entrainement, les résultats seront biaisés par ce qui s'applique à ce sous-ensemble. Il peut être utile, par exemple, de structurer l'algorithme de manière à ce qu'il donne une vue transparente des critères utilisés pour parvenir à une conclusion. Cela permet d'identifier et de corriger d'éventuelles lacunes dans les données fournies.

Enfin, des fournisseurs indépendants (tels qu'IBM et LatticeFlow) sont apparus et offrent des services liés à l'examen et à l'audit d'un outil IA, ce qui permet une meilleure transparence et une plus grande fiabilité. Grâce à l'amélioration de la technologie, il est possible de mettre de plus en plus en lumière ce qui était autrefois une "boîte noire".

[1] David Rosenthal, Das neue Datenschutzgesetz, in: Jusletter 16. November 2020, N.19; Whereas 26 of REGULATION (EU) 2016/679 (GDPR).

[2] Opinion 4/2007 on the concept of personal data, p. 9 ss.

[3] At European level it must be noticed the existence of the Database Directive, which gives copyright protection to naturals person for database structures created (e.g., the structure of relational databases as intellectual creation), but not their content.

[4] Daniel Gervais, Exploring the Interfaces Between Big Data and Intellectual Property Law, 10 (2019), JIPITEC 3 para 21.