Introduzione

Gli strumenti AI sono fondamentalmente basati su un modello AI, cioè un algoritmo che impara dai dati per rispondere alla domanda per cui è stato progettato. Sembra complicato, ma ciò può essere riassunto come un pezzo di software precostruito (rete neurale o altro tipo di apprendimento automatico, spesso facilmente disponibile su internet), comunemente chiamato "algoritmo", che viene allenato o calibrato con i dati disponibili per rispondere alla domanda su cui è stato allenato. A seconda dei dati disponibili, è possibile ottenere informazioni su schemi nascosti, prevedere situazioni, creare un ambiente intelligente in grado di percepire e agire su ciò che lo circonda, o supportare flussi di lavoro automatizzando compiti standard. Tutto questo richiede qualche considerazione preliminare sui dati che saranno utilizzati per l'implementazione di AI-Tools.

- Le informazioni personali sono raccolte legalmente?
- Le informazioni personali sono usate per una decisione automatizzata o per un profiling?
- Avete una strategia sulla proprietà dei dati?
- Avete i dati di cui avete bisogno?
- I dati sono rappresentativi del vostro caso d'uso (qualità dei dati)?

Considerazioni legali

Protezione dei dati

Gli strumenti AI e "Big Data" (la grande quantità di informazioni che oggi è possibile raccogliere) hanno causato un contraccolpo normativo volto a proteggere le informazioni personali. L'uso e la raccolta di informazioni personali sono strettamente regolati in molti paesi, tra cui l’Europa e la Svizzera, e queste norme hanno implicazioni in tutto il mondo.

Quando le informazioni sono considerate personali varia da situazione a situazione. Quando un'azienda dispone di dati che le permettono, senza sforzi irragionevoli, di associare i dati a una persona, o questi dati vengono raccolti o trattati per associarli a una persona specifica, allora si tratta di informazioni personali.[1]

Quando si raccolgono dati che costituiscono informazioni personali, ci si deve assicurare che queste informazioni siano raccolte legalmente. Questo di solito significa che la persona da cui vengono raccolti i dati deve dare il suo consenso esplicito prima che i dati vengano raccolti. In casi specifici c'è la possibilità di raccogliere e usare i dati personali senza un esplicito consenso informato, se c'è una disposizione legale che lo permette (come la raccolta e l'uso dei dati della parte contraente per l'adempimento di un contratto). Poiché questi dati vengono molto spesso utilizzati anche per scopi di marketing, un consenso esplicito è però necessario per questo scopo aggiuntivo. Anche in situazioni in cui il consenso esplicito non è richiesto, la sua raccolta costituisce una best practice.

Anche l'uso delle informazioni raccolte deve essere legale. Questo significa che il consenso esplicito richiesto deve anche essere informato. Il consenso informato significa che la persona deve essere d'accordo sul tipo di informazioni raccolte e sull'uso dei dati raccolti. Deve quindi essere descritto in anticipo in modo relativamente dettagliato, come le informazioni personali saranno utilizzate. Anche se questi dati sono poi resi anonimi, e quindi non costituiranno più informazioni personali, la persona deve essere informata per essere in grado di garantire che  dati corretti siano stati raccolti e per essere in grado di controllare se i dati sono stati gestiti correttamente (ad esempio cancellati quando non più necessari).

Quando i dati personali vengono utilizzati per personalizzare un servizio o dare un suggerimento personalizzato, allora il risultato dell'elaborazione, che costituisce una "informazione soggettiva" su una persona, deve essere reso accessibile alla persona interessata, poiché costituiscono ancora informazioni personali.[2]

Inoltre, se i dati personali sono utilizzati per l'esecuzione di una decisione automatizzata o di profilazione che ha effetti rilevanti per la persona colpita (ad esempio, valutazione della solvibilità, bonus, assunzione e promozione, accesso a gruppi o luoghi, ecc.), si deve ricordare che questa ha il diritto di opporsi e chiedere una revisione da parte di un umano.

Proprietà intellettuale

In linea di principio la proprietà intellettuale sugli algoritmi utilizzati per la creazione di modelli è garantita a livello internazionale dalla Convenzione di Berna (in quanto costituisce un'opera "letteraria") ed è regolata dalle relative licenze.

I dati grezzi forniti per allenare il modello non sono invece solitamente protetti dalla proprietà intellettuale, a meno che non abbiano già una qualche protezione come opera letteraria o artistica (come testi letterari, articoli di giornale e immagini artistiche). Attualmente c'è un dibattito sulla questione se si debba creare una protezione specifica per la raccolta di dati che possono essere utilizzati per l'allenamento di algoritmi. L'idea prevalente, per il momento, è che altre opzioni di protezione legale esistenti, come le regole che proteggono le informazioni confidenziali e le regole della concorrenza, o gli accordi contrattuali, garantiscono una protezione legale sufficiente a questo tipo di dati.[3]  

Il prodotto di un algoritmo AI è anche esso escluso dai diritti di protezione intellettuale, il che è controverso per prodotti come immagini, audio e testi prodotti dall'AI che sono paragonabili a opere eseguite da esseri umani. Questo perché la protezione è di solito concessa a un’opera "originale" (non ovvia), e l'originalità è considerata derivabile solo dall'attività umana.[4] 

Considerazioni tecniche

Prima di tutto: preparare i dati di allenamento. Questo comporta diversi passaggi che permetteranno di ottenere con successo i risultati desiderati. Fondamentalmente, si deve controllare che i dati siano disponibili: i dati devono essere disponibili in un formato che l'algoritmo può capire (come testi elettronici, immagini e numeri), così come in quantità sufficiente. Se questo non è ancora disponibile, è possibile digitalizzare le informazioni esistenti grazie a fornitori specializzati. È importante che questa digitalizzazione dei dati sia abbinata alla digitalizzazione del flusso di lavoro, di modo che non sia più necessario in futuro ripetere lo stesso esercizio. A causa dell'ondata in condizioni di home office, la digitalizzazione di base del lavoro è presente ovunque.

Il numero di informazioni necessarie perché un'implementazione di strumenti AI sia utile varia da caso a caso. Sono state create molte soluzioni, per cui esistono già modelli allenati in modo tale da poter essere implementati con pochi o nessun dato disponibile. Questo è specialmente il caso delle soluzioni di automazione di base come l'estrazione di informazioni da documenti e moduli standard. Molte aziende che forniscono algoritmi offrono anche una consulenza sulle opzioni e gli strumenti disponibili in base ai dati già a disposizione.

Un altro aspetto da considerare è che la qualità dei dati dovrebbe essere controllata: si deve infatti garantire che i dati di allenamento siano abbastanza diversificati in modo da riflettere l'uso previsto. Se solo un sottoinsieme dei casi d'uso è stato usato per i dati di allenamento, i risultati saranno distorti da ciò che si applica unicamente a questo sottoinsieme. Può essere utile a tal fine strutturare l'algoritmo in modo tale da fornire una visione trasparente sui criteri utilizzati per raggiungere una conclusione. Questo aiuta a identificare e affrontare eventuali lacune nei dati forniti.

Infine, sono emersi fornitori indipendenti (come IBM e LatticeFlow) che offrono servizi legati alla revisione e all'audit di strumenti AI, permettendo una migliore trasparenza e affidabilità. Grazie al miglioramento della tecnologia, è possibile fare sempre più luce in quella che una volta era considerata una "scatola nera".

[1] David Rosenthal, Das neue Datenschutzgesetz, in: Jusletter 16. November 2020, N.19; Whereas 26 of REGULATION (EU) 2016/679 (GDPR).

[2] Opinion 4/2007 on the concept of personal data, p. 9 ss.

[3] At European level it must be noticed the existence of the Database Directive, which gives copyright protection to naturals person for database structures created (e.g., the structure of relational databases as intellectual creation), but not their content.

[4] Daniel Gervais, Exploring the Interfaces Between Big Data and Intellectual Property Law, 10 (2019), JIPITEC 3 para 21.