OpenAI ha usato milioni di ore di video di YouTube per addestrare Gpt-4

Questo articolo è stato pubblicato da questo sito

Il processo di addestramento dell’intelligenza artificiale seguito all’interno delle grandi aziende tech di settore rimane alquanto oscuro. Conoscerne i dettagli, infatti, è sempre molto difficile – considerando che spesso si tratta di procedimenti che hanno a che fare con la violazione del copyright. Eppure, di recente il New York Times è riuscito a descrivere alla perfezione le azioni messe sul campo da OpenAI per riuscire a entrare in possesso di dati utili per l’addestramento della sua AI.

A quanto pare, infatti, alla fine del 2021 la compagnia aveva esaurito “ogni riserva di testi attendibili in lingua inglese su internet per sviluppare il suo ultimo sistema di intelligenza artificiale”. Per ovviare a questo problema, i ricercatori di OpenAI hanno creato Whisper, uno strumento di riconoscimento vocale “in grado di trascrivere l’audio dei video di YouTube, producendo un nuovo testo di conversazione che avrebbe contribuito a migliorare un sistema di intelligenza artificiale”. Una scelta che rappresenta una chiara violazione delle regole di YouTube, che vieta l’uso dei suoi contenuti video “per applicazioni indipendenti dalla piattaforma”.

Eppure, nonostante alcuni dei dipendenti fossero a conoscenza della strategia illecita adottata dalla compagnia, Whisper avrebbe trascritto più di un milione di ore di video di YouTube da “dare in pasto” a Gpt-4, il più potente modello linguistico messo a punto da OpenAI. D’altronde, le Big Tech hanno bisogno di dati per addestrare l’intelligenza artificiale, e stanno davvero facendo di tutto per riuscire a ottenerli. A tal proposito Lindsay Held, portavoce della società madre di ChatGpt, ha dichiarato a The Verge che la compagnia utilizza per la formazione dell’AI “numerose fonti, compresi i dati disponibili pubblicamente e alcune partnership per i dati non pubblici“.

A queste, secondo quanto riportato dal NYT, potrebbero aggiungersi presto anche le cosiddette informazioni sintetiche, ossia “testi, immagini e codici prodotti dai modelli AI”, così che “i sistemi imparino da ciò che essi stessi generano.” Una soluzione utile, che le Big Tech potrebbero esplorare nel prossimo futuro. Anche se, a quanto pare, sottrarre dati furtivamente sembra essere la strategia più adottata nel settore.

OpenAI ha usato milioni di ore di video di YouTube per addestrare Gpt-4

The Old Guard 2 su Netflix, perché non bastano attori bravissimi per salvare questo sequel svogliato

Rifugi anti-caldo, la mappa nelle città italiane

X down, il social non funziona oggi 2 luglio 2025

Intervision 2025, cos'è la risposta di Putin all'Eurovision (e ci saranno gli Stati Uniti?)

Oggetti interstellari, gli astronomi hanno scoperto un nuovo candidato, il terzo dopo ‘Oumuamua e la cometa 2I/Borisov

More Articles Like This