Apple, Nvidia e Anthropic accusate di usare video di YouTube senza permesso per addestrare l’IA

Alcuni tra i creator più famosi hanno denunciato l’uso non autorizzato dei loro video per addestrare l’IA.
Le aziende che si occupano di intelligenza artificiale non condividono (tutte) le loro fonti di dati utilizzate per l’addestramento. Una recente indagine di Proof News ha messo in luce che alcune tra le aziende più ricche del mondo, tra cui Anthropic, Nvidia, Apple e Salesforce, hanno utilizzato Youtube per addestrare i loro modelli di IA, senza permesso da parte dell’azienda e dei creator. Le linee guide di Youtube sono chiare: è vietato l’uso dei suoi contenuti per questo scopo.
L’indagine ha messo in evidenza che i sottotitoli di 173.536 video di YouTube, provenienti da oltre 48.000 canali, sono stati utilizzati dalle grandi aziende tecnologiche. Il dataset, chiamato YouTube Subtitles, contiene le trascrizioni di video dei canali educativi e di apprendimento online come Khan Academy, MIT e Harvard; sono stati utilizzati i contenuti delle testate giornalistiche più importanti come The Wall Street Journal, NPR e BBC. Lo stesso discorso vale per i talk show più in voga: “The Late Show With Stephen Colbert”, “Last Week Tonight With John Oliver” e “Jimmy Kimmel Live.”
La denuncia dei creator
L’IA è stata addestrata anche sui canali con più iscritti al mondo come MrBeast, Marques Brownlee, Jacksepticeye e PewDiePie, ovviamente senza il loro consenso. Ad esempio, David Pakman, conduttore di “The David Pakman Show”, ha scoperto che quasi 160 dei suoi video sono stati inclusi nel dataset YouTube Subtitles senza il suo permesso. Pakman sottolinea che il suo lavoro è la sua unica fonte di sostentamento e che dovrebbe essere compensato se le aziende traggono profitto dai suoi contenuti.
Oltre alla violazione del copyright, le aziende – perchè questo sono – pensano che questi modelli di IA generativa possano sostituire gli artisti, magari in un futuro non così lontano.
Le implicazioni del dataset YouTube Subtitles
Apple, Nvidia e Salesforce potrebbero quindi aver addestrato i loro modelli di IA con Youtube Subtitle, che non include immagini e video, ma solamente il testo dei sottotitoli. Apple, ad esempio, ha usato questo dataset per addestrare OpenELM, un modello di IA rilasciato ad aprile, poco prima di annunciare le nuove capacità di Apple Intelligence disponibili per iPhone, iPad e MacBook.
Anthropic ha confermato di aver utilizzato il dataset per addestrare Claude, il suo assistente generativo di IA. Lo stesso discorso vale per Salesforce, che ha utilizzato il dataset per scopi accademici e di ricerca, rilasciando poi il modello di IA per uso pubblico nel 2022.
Purtroppo, il caso di Youtube Subtitles non è isolato: anche altri dataset come Books3 hanno avuto dei problemi simili. A quanto pare oltre 180.000 libri sono stati utilizzati senza autorizzazione per addestrare alcuni modelli di IA.
Dalle aziende coinvolte tutto tace
Attualmente nessuna delle aziende coinvolte ha risposto alla polemica. Nel frattempo, Google, l’azienda proprietaria di Youtube, ha dichiarato di aver preso misure per prevenire l’uso abusivo di questi dati, ma non ha risposto esattamente all’uso dei video di Youtube per addestrare i suoi modelli di IA.
L’uso non autorizzato dei contenuti di creator per addestrare i vari LLM delle intelligenze artificiali fa riflettere e solleva fondamentali questioni etiche e legali: è fondamentale trovare al più presto un equilibrio tra innovazione e rispetto dei diritti d’autore, così da preservare il futuro dell’industria creativa.