Microsoft e OpenAI accusate di “furto dilagante” di materiale coperto da diritto d’autore

Secondo una denuncia depositata a New York, Microsoft avrebbe aiutato OpenAI a sviluppare sistemi di calcolo complessi, prelevando materiale da opere letterarie e saggistiche, senza licenza

Martedì 21 novembre è stata depositata una denuncia che mette in evidenza connessioni molto profonde tra Microsoft e OpenAI per la formazione del modello di ChatGpt (la chatbot basata su intelligenza artificiale ormai usata in tutto il mondo, ndr).

La denuncia, presentata alla corte federale di New York, porta il gigante tecnologico nella battaglia legale in corso per il presunto “furto dilagante” di materiale protetto da copyright per alimentare una delle start-up più promettenti della Silicon Valley. OpenAI, il cui valore sfiora i 90 miliardi di dollari, ha fatto di Microsoft un leader nel campo dell’intelligenza artificiale generativa.

Il ruolo di Microsoft

L’azione legale sottolinea infatti il “ruolo chiave” di Microsoft nel fornire “assistenza critica” nella creazione di copie senza licenza di opere di autori da utilizzare come dati di formazione e nella commercializzazione della tecnologia basata su Gpt, nonché la sua conoscenza del fatto che OpenAI raccoglie indiscriminatamente su Internet materiale protetto da copyright per formare il suo modello.

La querela segue l’inatteso colpo messo a segno nel fine settimana da Microsoft, che ha portato Sam Altman a dirigere il suo team di ricerca sull’intelligenza artificiale dopo la sua estromissione da OpenAI e il rientro, quasi immediato, nell’azienda madre. Se OpenAI è stata citata in almeno quattro cause per violazione del copyright, Microsoft ha in gran parte evitato le cause legali fino a questo momento.

A differenza delle precedenti cause condotte per lo più da autori di narrativa, questa è stata presentata da Julian Sancton, autore di saggi e articoli accademici. Sancton sostiene che Microsoft è stata “intimamente coinvolta nella formazione, nello sviluppo e nella commercializzazione” dei prodotti OpenAI basati su Gpt, sottolineando che l’azienda ha fornito un sistema di calcolo specializzato per formare il modello, che era necessario dato il volume del set di dati.

“Azure di Microsoft ha fornito i sistemi di calcolo in cloud che hanno alimentato il processo di formazione e continua ad aiutare le operazioni di OpenAI fino ad oggi”, si legge nella denuncia. “Senza questi sistemi informatici su misura, OpenAI non sarebbe stata in grado di eseguire e trarre profitto dalla massiccia violazione del copyright qui denunciata”.

Secondo la querela, l’amministratore delegato di Microsoft Satya Nadella ha dichiarato in un’intervista di febbraio alla Cnbc che “sotto quello che OpenAI sta mettendo in circolazione come modelli linguistici di grandi dimensioni, ricordate, il lavoro grosso è stato fatto dal team di Azure per costruire l’infrastruttura di calcolo”. La causa sostiene che si riferiva all’intimo coinvolgimento dell’azienda nello sviluppo, nella manutenzione e nel supporto del sistema di supercomputing di OpenAI. Grazie a questo processo e alla decisione di investire 13 miliardi di dollari nell’azienda, Sancton sostiene che Microsoft avrebbe dovuto rendersi conto che il suo partner era impegnato in una “violazione del copyright su larga scala” che violava le leggi sulla proprietà intellettuale.

A differenza di altri casi simili che hanno coinvolto aziende di IA, la causa sostiene che le aziende hanno direttamente realizzato decine di migliaia di copie senza licenza di opere protette da copyright allo scopo di formare il loro sistema di IA.

“Mentre OpenAI era responsabile della progettazione della calibrazione e della messa a punto dei modelli Gpt – e quindi della copia su larga scala di questo materiale protetto da copyright per generare un modello programmato per imitare accuratamente lo stile del querelante e di altri – Microsoft ha costruito e gestito il sistema informatico che ha permesso questa copia senza licenza”, scrive l’avvocato di Sancton, Craig Smyser.

La questione del copyright

Al momento dell’archiviazione, le aziende produttrici di IA hanno sostenuto in larga misura che formare i loro sistemi non implica la copia integrale di opere, ma piuttosto lo sviluppo di parametri – come linee, colori, sfumature e altri attributi associati a soggetti e concetti. Ma a domanda diretta su ChatGpt, la chatbox ha risposto: “Sì, il libro di Julian Sancton, Madhouse at the End of the Earth è incluso nei miei dati di formazione”, secondo la denuncia che nota anche come ChatGPT abbia poi modificato le impostazioni per evitare di divulgare tali dettagli.

Il coinvolgimento di Microsoft non si è limitato quindi allo sviluppo del prodotto, sempre secondo la denuncia, ma si è esteso anche al ruolo chiave nella commercializzazione della tecnologia basata su Gpt. Ad esempio, l’azienda ha integrato una chatbox Gpt all’interno del suo motore di ricerca (Bing).

Il querelante Sancton sostiene che la presunta cattiva condotta delle aziende è un “uso manifestamente sleale”, poiché gli utenti possono sostituire l’acquisto del suo libro con la rielaborazione dei contenuti da parte di ChatGPT. Le accuse mirano a far leva sulla recente decisione della corte suprema nella causa Andy Warhol Foundation for the Visual Arts contro Goldsmith. In quel caso, la giuria ha sottolineato che l’analisi per stabilire se un’opera presumibilmente violata sia stata sufficientemente trasformata deve essere bilanciata dalla “natura commerciale dell’uso”. Ciò significa che l’uso scorretto è più facilmente individuabile se le aziende di IA compromettono i guadagni dei creatori prelevando materiale da internet invece di perseguire accordi di licenza.

Microsoft non ha risposto immediatamente a una richiesta di commento. La scorsa settimana ha annunciato che difenderà i clienti da eventuali “sentenze sfavorevoli” nel caso in cui vengano citati in giudizio per violazione del copyright derivante dall’uso di Azure OpenAI Service.

In una dichiarazione, Sancton ha inoltre affermato: “È preoccupante per noi scrittori vedere il nostro lavoro utilizzato senza autorizzazione o compenso per costruire modelli linguistici di grandi dimensioni che sfruttano la nostra espressione a scopo di lucro”.

Lunedì 20 novembre un giudice federale ha respinto la maggior parte della causa intentata da Sarah Silverman contro Meta. Il giudice distrettuale degli Stati Uniti Vince Chhabria ha identificato teorie “insensate” e “non praticabili” in merito ad alcune delle argomentazioni principali di Sarah Silverman, secondo cui il modello di intelligenza artificiale dell’azienda è esso stesso un’opera derivata che viola il diritto d’autore e ogni risultato che produce costituisce una violazione del copyright.

Traduzione di Pietro Cecioni