giovedì, Maggio 22, 2025

OpenAI ha usato milioni di ore di video di YouTube per addestrare Gpt-4

Must Read

Questo articolo è stato pubblicato da questo sito

Il processo di addestramento dell’intelligenza artificiale seguito all’interno delle grandi aziende tech di settore rimane alquanto oscuro. Conoscerne i dettagli, infatti, è sempre molto difficile – considerando che spesso si tratta di procedimenti che hanno a che fare con la violazione del copyright. Eppure, di recente il New York Times è riuscito a descrivere alla perfezione le azioni messe sul campo da OpenAI per riuscire a entrare in possesso di dati utili per l’addestramento della sua AI.

A quanto pare, infatti, alla fine del 2021 la compagnia aveva esaurito “ogni riserva di testi attendibili in lingua inglese su internet per sviluppare il suo ultimo sistema di intelligenza artificiale”. Per ovviare a questo problema, i ricercatori di OpenAI hanno creato Whisper, uno strumento di riconoscimento vocalein grado di trascrivere l’audio dei video di YouTube, producendo un nuovo testo di conversazione che avrebbe contribuito a migliorare un sistema di intelligenza artificiale”. Una scelta che rappresenta una chiara violazione delle regole di YouTube, che vieta l’uso dei suoi contenuti video “per applicazioni indipendenti dalla piattaforma”.

Eppure, nonostante alcuni dei dipendenti fossero a conoscenza della strategia illecita adottata dalla compagnia, Whisper avrebbe trascritto più di un milione di ore di video di YouTube da “dare in pasto” a Gpt-4, il più potente modello linguistico messo a punto da OpenAI. D’altronde, le Big Tech hanno bisogno di dati per addestrare l’intelligenza artificiale, e stanno davvero facendo di tutto per riuscire a ottenerli. A tal proposito Lindsay Held, portavoce della società madre di ChatGpt, ha dichiarato a The Verge che la compagnia utilizza per la formazione dell’AI “numerose fonti, compresi i dati disponibili pubblicamente e alcune partnership per i dati non pubblici“.

A queste, secondo quanto riportato dal NYT, potrebbero aggiungersi presto anche le cosiddette informazioni sintetiche, ossia “testi, immagini e codici prodotti dai modelli AI”, così che “i sistemi imparino da ciò che essi stessi generano.” Una soluzione utile, che le Big Tech potrebbero esplorare nel prossimo futuro. Anche se, a quanto pare, sottrarre dati furtivamente sembra essere la strategia più adottata nel settore.

- Advertisement -spot_img
- Advertisement -spot_img
Latest News

Leonardo da Vinci ha sei discendenti ancora vivi, nuovi dettagli dalle analisi genetiche del cromosoma Y

Proseguono gli studi genealogici e genetici sui possibili discendenti di Leonardo da Vinci, artista e scienziato italiano che non...
- Advertisement -spot_img

More Articles Like This

- Advertisement -spot_img