Scorza: “L’IA si ciba di news: dati personali a rischio”

In tutto il mondo si diffondono i contratti di licenza tra editori di giornali e big tech per lo sfruttamento commerciale dei contenuti al fine di addestrare gli algoritmi: bisogna riflettere sulle ripercussioni per i dati personali e, di conseguenza, dignità e libertà degli interessati

Si moltiplicano negli Stati Uniti d’America le azioni promosse dagli editori di giornalicontro OpenAI e Microsoft per aver utilizzato, senza licenza, i propri contenuti per l’addestramento degli algoritmi di intelligenza artificiale generativa, ChatGPT e Copilot in testa.

E si moltiplicano, in tutto il mondo, gli accordi di licenza tra le stesse OpenAI e Microsoft e dozzine di altri gruppi editoriali, accordi che hanno per oggetto il diritto delle fabbriche di algoritmi allo sfruttamento commerciale dei contenuti prodotti dagli editori di giornali, appunto, per addestrare gli algoritmi.

Webscraping, licenze e diritto d’autore

Protagonista indiscussa tanto delle liti in tribunale che dei contratti di licenza è la disciplina sul diritto d’autore, il copyright negli USA, indiscutibilmente vantato dagli editori sugli articoli di giornale pubblicati online e finiti nella pancia degli algoritmi di OpenAI e Microsoft e, naturalmente, in quelle di tanti altri.

Gli editori che subiscono e hanno subito il webscraping – ovvero la pesca a strascico – da parte delle fabbriche di algoritmi gridano alla condotta pirata, parassitaria e cannibalistica mentre le fabbriche degli algoritmi si difendono evocando il c.d. fair use, l’uso corretto e non concorrenziale rispetto a quello principale che, secondo la disciplina sul copyright, consente a terzi l’utilizzo delle altrui opere a prescindere dall’esigenza di un permesso o di una licenza.

Altri editori invece raggiungono accordi di licenza milionari con le fabbriche degli algoritmi e risolvono o, meglio, prevengono ogni questione a monte, moltiplicando gli utili e le forme di sfruttamento sui propri archivi che si rivelano utili e protagonisti di un mercato diverso rispetto a quello dell’informazione, quello, appunto, dei contenuti destinati a rendere “intelligenti” gli algoritmi di una manciata di Corporation già divenute oligopoliste del mercato dei servizi basati sull’intelligenza artificiale generativa.

Dati personali e articoli di giornale

La questione è interessante ma sembra parziale, almeno, per come sin qui emersa. O, forse, meglio, sembra mal posta o posta muovendo da un presupposto della cui legittimità sembra lecito dubitare. Il presupposto in questione è che gli editori di giornali possano effettivamente licenziare alle fabbriche di algoritmi i loro contenuti in versione integrale per addestrarli. È davvero così?

Sotto il profilo del diritto d’autore la questione verrà risolta nei giudizi pendenti e in parecchi ne hanno, peraltro, già scritto. Essa dipende essenzialmente dalla possibilità di ritenere che i giornalisti abbiano o non abbiano ceduto agli editori anche i diritti per questa nuova e diversa forma di sfruttamento dei loro articoli: l’addestramento degli algoritmi. Ma quello del diritto d’autore non sembra essere l’unico profilo rilevante.

Il ruolo del diritto di cronaca e dell’interesse pubblico

Gli articoli di giornale, infatti, contengono anche dati personali che i giornali pubblicano utilizzando il diritto di cronaca come base giuridica.

E qui la questione probabilmente si complica. I limiti nei quali il trattamento di questi dati personali è legittimo sono diversi e sono noti. A guidare, volendo provare a sintetizzare un tema enormemente complesso e ricco di sfumature diverse anche in relazione al profilo dell’interessato è l’interesse pubblico a accedere a informazioni e notizie concernenti le persone cui i dati personali si riferiscono.

Più l’interesse pubblico è elevato più evidente il diritto dell’editore di pubblicare una notizia contenente i dati personali in questione. Inferiore è questo interesse pubblico, più dubbia diventa la legittimità del trattamento dei dati personali strumentale alla pubblicazione dell’articolo. E l’interesse pubblico in questione, come è noto, si affievolisce, sino a scomparire, tra l’altro con il decorrere del tempo, dando vita al c.d. diritto all’oblio.

Questo, almeno, in Europa ai sensi della disciplina sulla protezione dei dati personali (GDPR). Anche se, regole e principi analoghi sono, ormai, diffusi in diversi Paesi in giro per il mondo.

Il cuore della questione è questo: siamo certi che gli editori di giornale possano licenziare a OpenAI, Microsoft e alle altre fabbriche degli algoritmi il diritto a usare i “loro” – forse sotto il profilo del diritto d’autore – articoli, dati personali di terzi inclusi, per addestrare gli algoritmi?

La citazione in giudizio da parte del NYT

Il NYT scrive così nella sua citazione in giudizio rivolta a OpenAI e Microsoft: “Per mesi, il Times ha cercato di raggiungere un accordo negoziato con i Convenuti (ndr OpenAI e Microsoft), in conformità con la sua storia di lavoro produttivo con le grandi piattaforme tecnologiche per consentire l’uso dei suoi contenuti nei nuovi prodotti digitali (compresi i prodotti di notizie sviluppati da Google, Meta e Apple). L’obiettivo del Times durante queste trattative è stato quello di assicurarsi di ricevere un valore equo per l’uso dei suoi contenuti, di facilitare la continuazione di un ecosistema di notizie sano e di aiutare a sviluppare la tecnologia GenAI in modo responsabile, a beneficio della società e di un pubblico bene informato. Queste trattative non hanno portato a una soluzione.”.

La sintesi pare semplice: si fosse trovato un accordo commerciale secondo il NYT, non ci sarebbe stata nessuna questione. Il giornale avrebbe venduto e OpenAI e Microsoft acquistato milioni di contenuti, un tanto al chilo, dati personali inclusi.

E, d’altra parte, OpenAI nel resistere alle accuse del Times risponde citando addirittura le parole di Louis Brandeis, papà del diritto alla privacy, autore, nel 1890 con Samuel Warren, di quel The right to be let alone che diede i natali, nella dimensione accademica alla privacy e poi giudice alla Corte Suprema degli Stati Uniti d’America: “La regola generale del diritto è che le produzioni umane più nobili – la conoscenza, le verità accertate, le concezioni e le idee – diventano, dopo la comunicazione volontaria ad altri, libere come l’aria per l’uso comune”.

Una questione di dignità e libertà delle persone

Verissimo, anzi, indubitabile. Ma non sembra un caso che Brandeis non citasse i dati personali che liberi come l’aria non diventano mai perché dal loro trattamento dipende la dignità e la libertà delle persone.

Chi come un editore di giornali tratta i dati di una persona “solo” in nome del sacrosanto diritto di cronaca, può davvero disporne anche economicamente non per esercitare in direzione altre il diritto di cronaca ma per consentire a altri un processo squisitamente tecnologico quale quello strumentale all’addestramento degli algoritmi?

Personalmente, alla domanda, io credo si debba rispondere in senso negativo. L’editore non può disporre dei dati personali contenuti nei suoi articoli perché terzi li usino per addestrare i propri algoritmi anche quando possa disporre, senza limite alcuno, sotto il diverso profilo del diritto d’autore, dell’intero articolo.

E, d’altra parte, non sembra ci sia spazio per dubitare che l’addestramento degli algoritmi di intelligenza artificiale generativa non ha nulla a che fare con il diritto di cronaca considerato che, sebbene la gente non sapendolo continui a usare questi servizi a caccia di notizie e informazioni vere e esatte, i contenuti generati da tali servizi sono semplicemente verosimili su base statistica e probabilistica.

La situazione in Europa

Insomma se è pacifico che ChatGPT – e suoi emuli – non serve per raccontare fatti e informazioni, allora, non c’è dubbio, o non dovrebbe esservi, che l’addestramento degli algoritmi che ne è alla base non ha nulla a che vedere con l’esercizio del diritto di cronaca. Ma allora i contratti di licenza tra editori di giornali e fabbriche di algoritmi?

Almeno in Europa, probabilmente, sono a dir poco claudicanti sempre che gli editori non siano in grado di filtrare i dati personali contenuti negli articoli sui quali pretenderebbero di cedere alle fabbriche degli algoritmi i diritti di sfruttamento.

Guai, naturalmente, a dirsi certi della bontà di questa prima conclusione.

Si scrive spesso – e questo è uno di quei casi – per raccogliere stimoli, critiche, adesioni e posizioni diverse e mettere a fuoco temi e questioni e, magari, arrivare a conclusioni opposte rispetto alle prime che si sono ipotizzate.

Articolo a cura di Guido Scorza –Autorità Garante Privacy