Questo articolo è stato pubblicato da questo sito
Per OpenAI, la nuova tecnologia di generazione vocale di ChatGPT – sviluppata internamente dall’azienda – apre anche nuove opportunità per concedere in licenza ad altri l’uso della propria tecnologia. Spotify, per esempio, ha dichiarato di voler utilizzare gli algoritmi di sintesi vocale di OpenAI per sperimentare una funzione che traduce i podcast in altre lingue, imitando grazie all’intelligenza artificiale la voce di un oratore umano.
La nuova versione dell’app di ChatGPT presenta un’icona a forma di cuffie in alto a destra e icone che raffigurano una foto e una fotocamera in un menu che si apre in basso a sinistra. Le funzioni vocali e visive convertono le informazioni in ingresso in testo, utilizzando il riconoscimento vocale o delle immagini, permettendo al chatbot di generare una risposta. L’app risponde quindi con la voce o con il testo, a seconda della modalità scelta dall’utente. Quando una giornalista di Wired US ha chiesto a voce al nuovo ChatGPT se poteva “sentirla”, l’app ha risposto: “Non posso sentirti, ma posso leggere e rispondere ai tuoi messaggi di testo”, a conferma del fatto che la richiesta vocale viene effettivamente elaborata come testo. L’app risponderà agli utenti con una delle cinque voci disponibili, ribattezzate Juniper, Ember, Sky, Cove o Breeze.
Jim Glass, professore del Massachusetts Institute of Technology (Mit) che si occupa di tecnologia vocale, racconta che diversi gruppi accademici stanno attualmente testando interfacce vocali collegate a grandi modelli linguistici, con risultati promettenti: “Il parlato è il modo più semplice che abbiamo per generare il linguaggio, quindi è una cosa naturale“, sottolinea, aggiungendo che nonostante sia migliorato notevolmente nell’ultimo decennio, il riconoscimento vocale presenta ancora lacune in molte lingue.
OpenAI ha iniziato a distribuire le nuove funzioni di ChatGPT, che saranno disponibili solo attraverso la versione di ChatGPT in abbonamento a 20 dollari al mese in tutti i mercati in cui il sistema è già presente, anche se inizialmente solo in inglese.
I test
Nei primi test condotti da Wired US, la funzione di ricerca visiva ha mostrato alcuni limiti evidenti. Alla richiesta di identificare le persone all’interno di alcune immagini, come la foto del badge aziendale di un autore di Wired, il sistema ha risposto “Mi dispiace, non posso aiutarti“. In risposta a un’immagine della copertina di American Prometheus, in cui campeggia una foto del fisico J. Robert Oppenheimer, ChatGPT ha restituito invece una descrizione del libro.