Questo articolo è stato pubblicato da questo sito
L’intelligenza artificiale generativa ha bisogno di nutrirsi di molti, moltissimi dati per addestrare i propri algoritmi ed essere davvero utile alle aziende e alle organizzazioni. Questi dataset si stanno rivelando il cuore del nascente business dell’AI, in qualche modo a valle degli stessi modelli generativi, perché quasi nessuno dispone di corpus “puliti”, affidabili, completi e inclusivi. La nostra è la fase dei cosiddetti dataset “sporchi” o scadenti: pieni di buchi, errori, pregiudizi, informazioni certi massicce ma spesso parziali, che non “coprono” in modo uniforme e completo un certo ambito, fenomeno, settore o categoria. E alla fine rischiano di creare più danni che benefici a chi li impiega come base di partenza per allenare i propri strumenti di intelligenza artificiale. Una startup italiana, Clearbox AI, ha la soluzione: i dati sintetici.
“Aiutiamo le aziende a lanciare progetti di AI attraverso la generazione di dati sintetici. Per sfruttare il potenziale dell’intelligenza artificiale ci vogliono molti dati ma spesso reperirli e utilizzarli non è così semplice per le imprese – spiega a Wired Shalini Kurapati, 35enne, ad e co-fondatrice di Clearbox AI, originaria di Chennai, India, e in Italia da alcuni anni -. La nostra missione sta nel comprendere questi ostacoli e fornire loro dati di qualità per ottenere risultati di successo”. La startup è fiorita nel 2019 sotto l’ala dell’Incubatore del Politecnico di Torino, dove le strade di Kurapati e quelle degli altri tre co-fondatori si sono incontrate dopo una formazione diversificata da tutta Europa. Il team, dice l’ad, ha infatti una duplice anima: forti radici nel mondo R&D con lauree dalle migliori università tecnologiche in Europa, che vanno mano nella mano con un approccio ingegneristico e pratico nel risolvere i problemi dei clienti.
Ma che cosa sono i dati sintetici? Possiamo considerarli come proiezioni attendibili sulla base di un dataset reale? “Esatto – risponde Kurapati, che nei giorni scorsi ha partecipato a State of the privacy, evento organizzato dall’Autorità garante per la protezione dei dati personali per fare un punto della situazione – precisamente sono dati generati da algoritmi di intelligenza artificiale sulla base di dati veri, che ricreano in modo matematico e statistico situazioni di vita reale. Nel nostro caso sono generati da un data engine basato su tecnologia proprietaria, ideata dal nostro Cto Luca Gilli. L’AI generativa fa anche questo. Dalla nostra esperienza pregressa abbiamo notato come le aziende facciano fatica a mettere in moto progetti di intelligenza artificiale e questo accade per diverse ragioni. Organizzazione, aspettative, costi ma soprattutto a causa dei dati. Sono difficili e costosi da reperire, è complicato gestirli e spesso queste informazioni sono sensibili e quindi inutilizzabili per via della privacy. I dati sintetici aiutano le aziende ad avere dati simili a quelli veri, senza problemi di privacy e a costi più contenuti”.
I campi di applicazione sono infiniti, dalla salute alla finanza passando all’innovazione di processo o prodotto. “Quando si parla di salute, i dati sintetici facilitano e velocizzano molti processi che richiedono una grande mole di dati, spesso sensibili riguardando aspetti clinici dei pazienti. Possono essere usati ad esempio per condurre delle simulazioni senza accedere a dati reali dei pazienti, e quindi in questo modo aiutare processi quali lo studio di nuovi farmaci o la predizione di certe situazioni cliniche – spiega Kurapati -. Inoltre possono favorire l’avanzamento della ricerca facilitando la condivisione di dati che normalmente sono protetti. In questo modo, i ricercatori possono collaborare in modo sicuro e rispettoso delle leggi sulla privacy e delle regolamentazioni sulle informazioni sanitarie. Per esempio, il registro nazionale olandese sul cancro fornisce dataset clinici sintetici per favorire l’avanzamento della ricerca che può essere bloccato dai vincoli dei dati personali”.